3B挑戰70B！月之暗面Kimi-VL新版開源：數學、視頻等多項指標超越GPT-4o

分類：科技

瀏覽數：2007

2025-06-23

智東西（公眾號：zhidxcom）

作者 | 李水青

編輯 | 心緣

智東西6月23日報道，月之暗面今日開源多模態模型kimi-vl-a3b-thinking-2506，這是其首個開源多模態推理模型kimi-vl-a3b-thinking發布兩個月後的更新版本，可憑藉2.8b激活參數（16b總參數）在多項測評中超越gpt-4o、qwen2.5-vl-7b等模型。

▲hugging face截圖

開源地址：https://huggingface.co/moonshotai/kimi-vl-a3b-thinking-2506

與之前的版本相比，2506版本提供了多項全新或改進的功能：

1、它在消耗更少tokens的同時思考得更聰明：2506版本在多模態推理基準上達到了更好的準確率：mathvision上得分為56.9（+20.1），mathvista上為80.1（+8.4），mmmu-pro上為46.3（+3.2），mmmu上為64.0（+2.1），而平均需要減少20%的思考長度。

2、思考過程更清楚可見：與之前的思考版本不同，2506版本在一般的視覺感知和理解上也能達到相同甚至更好的能力，例如mmbench-en-v1.1（84.4）、mmstar（70.4）、realworldqa（70.0）、mmvet（78.4），超越或匹配其非思考模型（kimi-vl-a3b-instruct）的能力。

3、擴展至視頻場景：2506版本在視頻推理和理解基準方面也有顯著提升。它在videommmu上為開源模型刷新記錄（65.2），同時在通用視頻理解方面也保持了良好的性能，在video-mme上達到71.9，與kimi-vl-a3b-instruct相當。

4、解析度進一步提升：2506版本支持單張圖像320萬像素（1792×1792），比上一版本提升了4倍。這在高解析度感知和os-agent基準測試中帶來了顯著提升：在v* benchmark（未使用額外工具）上得分為83.2，在screenspot-pro上得分為52.8，在osworld-g上得分為52.5。

具體來看，與業界頂尖模型和kimi-vl的兩個先前版本的比較，2506版本測試性能明顯提升:

在通用多模態方面，2506版本在mmbench-en-v1.1（acc）、ocrbench（acc）、mmstar（acc）、mmvet（acc）多項測評的得分超過openai的gpt-4o。

在推理能力方面，2506版本在mmmu（val，pass@1）、mmmu-pro（pass@1）上的測試成績超過qwen2.5-vl-7b、gemma3-12b-it，不如gpt-4o，但差距有所縮小。

在數學能力方面，2506版本在math-vision（pass@1）、mathvista_mini（pass@1）中得分大超gpt-4o。

在視頻能力方面，2506版本在videommmu（pass@1）、mmvu（pass@1）、video-mme（w/sub.）多項測評中超過qwen2.5-vl-7b、gemma3-12b-it，與gpt-4o的差距縮小。

在agent落地方面，2506版本在screenspot-pro（acc）、screenspot-v2（acc）、osworld-g（acc）測試中得分都超越qwen2.5-vl-7b。

在長文本方面，2506版本在mmlongbench-doc（acc）測試中超越qwen2.5-vl-7b，與gpt-4o接近。

如下圖所示，與30-70b的開源模型對比，2506版本的大部分測試已經超越qwen2.5-vl-32b、gemma3-27b-it，看齊qwen2.5-vl-72b。

來源：hugging face

科技分類資訊推薦