3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o

智東西(公眾號:zhidxcom)

作者 | 李水青

編輯 | 心緣

智東西6月23日報道,月之暗面今日開源多模態模型kimi-vl-a3b-thinking-2506,這是其首個開源多模態推理模型kimi-vl-a3b-thinking發布兩個月後的更新版本,可憑藉2.8b激活參數(16b總參數)在多項測評中超越gpt-4o、qwen2.5-vl-7b等模型。

▲hugging face截圖

開源地址:https://huggingface.co/moonshotai/kimi-vl-a3b-thinking-2506

與之前的版本相比,2506版本提供了多項全新或改進的功能:

1、它在消耗更少tokens的同時思考得更聰明:2506版本在多模態推理基準上達到了更好的準確率:mathvision上得分為56.9(+20.1),mathvista上為80.1(+8.4),mmmu-pro上為46.3(+3.2),mmmu上為64.0(+2.1),而平均需要減少20%的思考長度。

2、思考過程更清楚可見:與之前的思考版本不同,2506版本在一般的視覺感知和理解上也能達到相同甚至更好的能力,例如mmbench-en-v1.1(84.4)、mmstar(70.4)、realworldqa(70.0)、mmvet(78.4),超越或匹配其非思考模型(kimi-vl-a3b-instruct)的能力。

3、擴展至視頻場景:2506版本在視頻推理和理解基準方面也有顯著提升。它在videommmu上為開源模型刷新記錄(65.2),同時在通用視頻理解方面也保持了良好的性能,在video-mme上達到71.9,與kimi-vl-a3b-instruct相當。

4、解析度進一步提升:2506版本支持單張圖像320萬像素(1792×1792),比上一版本提升了4倍。這在高解析度感知和os-agent基準測試中帶來了顯著提升:在v* benchmark(未使用額外工具)上得分為83.2,在screenspot-pro上得分為52.8,在osworld-g上得分為52.5。

具體來看,與業界頂尖模型和kimi-vl的兩個先前版本的比較,2506版本測試性能明顯提升:

在通用多模態方面,2506版本在mmbench-en-v1.1(acc)、ocrbench(acc)、mmstar(acc)、mmvet(acc)多項測評的得分超過openai的gpt-4o。

在推理能力方面,2506版本在mmmu(val,pass@1)、mmmu-pro(pass@1)上的測試成績超過qwen2.5-vl-7b、gemma3-12b-it,不如gpt-4o,但差距有所縮小。

在數學能力方面,2506版本在math-vision(pass@1)、mathvista_mini(pass@1)中得分大超gpt-4o。

在視頻能力方面,2506版本在videommmu(pass@1)、mmvu(pass@1)、video-mme(w/sub.)多項測評中超過qwen2.5-vl-7b、gemma3-12b-it,與gpt-4o的差距縮小。

在agent落地方面,2506版本在screenspot-pro(acc)、screenspot-v2(acc)、osworld-g(acc)測試中得分都超越qwen2.5-vl-7b。

在長文本方面,2506版本在mmlongbench-doc(acc)測試中超越qwen2.5-vl-7b,與gpt-4o接近。

如下圖所示,與30-70b的開源模型對比,2506版本的大部分測試已經超越qwen2.5-vl-32b、gemma3-27b-it,看齊qwen2.5-vl-72b。

來源:hugging face