智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣
智東西6月23日報道,月之暗面今日開源多模態模型kimi-vl-a3b-thinking-2506,這是其首個開源多模態推理模型kimi-vl-a3b-thinking發布兩個月後的更新版本,可憑藉2.8b激活參數(16b總參數)在多項測評中超越gpt-4o、qwen2.5-vl-7b等模型。
▲hugging face截圖
開源地址:https://huggingface.co/moonshotai/kimi-vl-a3b-thinking-2506
與之前的版本相比,2506版本提供了多項全新或改進的功能:
1、它在消耗更少tokens的同時思考得更聰明:2506版本在多模態推理基準上達到了更好的準確率:mathvision上得分為56.9(+20.1),mathvista上為80.1(+8.4),mmmu-pro上為46.3(+3.2),mmmu上為64.0(+2.1),而平均需要減少20%的思考長度。
2、思考過程更清楚可見:與之前的思考版本不同,2506版本在一般的視覺感知和理解上也能達到相同甚至更好的能力,例如mmbench-en-v1.1(84.4)、mmstar(70.4)、realworldqa(70.0)、mmvet(78.4),超越或匹配其非思考模型(kimi-vl-a3b-instruct)的能力。
3、擴展至視頻場景:2506版本在視頻推理和理解基準方面也有顯著提升。它在videommmu上為開源模型刷新記錄(65.2),同時在通用視頻理解方面也保持了良好的性能,在video-mme上達到71.9,與kimi-vl-a3b-instruct相當。
4、分辨率進一步提升:2506版本支持單張圖像320萬像素(1792×1792),比上一版本提升了4倍。這在高分辨率感知和os-agent基準測試中帶來了顯著提升:在v* benchmark(未使用額外工具)上得分為83.2,在screenspot-pro上得分為52.8,在osworld-g上得分為52.5。
具體來看,與業界頂尖模型和kimi-vl的兩個先前版本的比較,2506版本測試性能明顯提升:
在通用多模態方面,2506版本在mmbench-en-v1.1(acc)、ocrbench(acc)、mmstar(acc)、mmvet(acc)多項測評的得分超過openai的gpt-4o。
在推理能力方面,2506版本在mmmu(val,pass@1)、mmmu-pro(pass@1)上的測試成績超過qwen2.5-vl-7b、gemma3-12b-it,不如gpt-4o,但差距有所縮小。
在數學能力方面,2506版本在math-vision(pass@1)、mathvista_mini(pass@1)中得分大超gpt-4o。
在視頻能力方面,2506版本在videommmu(pass@1)、mmvu(pass@1)、video-mme(w/sub.)多項測評中超過qwen2.5-vl-7b、gemma3-12b-it,與gpt-4o的差距縮小。
在agent落地方面,2506版本在screenspot-pro(acc)、screenspot-v2(acc)、osworld-g(acc)測試中得分都超越qwen2.5-vl-7b。
在長文本方面,2506版本在mmlongbench-doc(acc)測試中超越qwen2.5-vl-7b,與gpt-4o接近。
如下圖所示,與30-70b的開源模型對比,2506版本的大部分測試已經超越qwen2.5-vl-32b、gemma3-27b-it,看齊qwen2.5-vl-72b。
來源:hugging face