3B挑战70B！月之暗面Kimi-VL新版开源：数学、视频等多项指标超越GPT-4o

2025年06月23日19:40:21 科技 2007

智东西（公众号：zhidxcom）

作者 | 李水青

编辑 | 心缘

智东西6月23日报道，月之暗面今日开源多模态模型kimi-vl-a3b-thinking-2506，这是其首个开源多模态推理模型kimi-vl-a3b-thinking发布两个月后的更新版本，可凭借2.8b激活参数（16b总参数）在多项测评中超越gpt-4o、qwen2.5-vl-7b等模型。

▲hugging face截图

开源地址：https://huggingface.co/moonshotai/kimi-vl-a3b-thinking-2506

与之前的版本相比，2506版本提供了多项全新或改进的功能：

1、它在消耗更少tokens的同时思考得更聪明：2506版本在多模态推理基准上达到了更好的准确率：mathvision上得分为56.9（+20.1），mathvista上为80.1（+8.4），mmmu-pro上为46.3（+3.2），mmmu上为64.0（+2.1），而平均需要减少20%的思考长度。

2、思考过程更清楚可见：与之前的思考版本不同，2506版本在一般的视觉感知和理解上也能达到相同甚至更好的能力，例如mmbench-en-v1.1（84.4）、mmstar（70.4）、realworldqa（70.0）、mmvet（78.4），超越或匹配其非思考模型（kimi-vl-a3b-instruct）的能力。

3、扩展至视频场景：2506版本在视频推理和理解基准方面也有显著提升。它在videommmu上为开源模型刷新记录（65.2），同时在通用视频理解方面也保持了良好的性能，在video-mme上达到71.9，与kimi-vl-a3b-instruct相当。

4、分辨率进一步提升：2506版本支持单张图像320万像素（1792×1792），比上一版本提升了4倍。这在高分辨率感知和os-agent基准测试中带来了显著提升：在v* benchmark（未使用额外工具）上得分为83.2，在screenspot-pro上得分为52.8，在osworld-g上得分为52.5。

具体来看，与业界顶尖模型和kimi-vl的两个先前版本的比较，2506版本测试性能明显提升:

在通用多模态方面，2506版本在mmbench-en-v1.1（acc）、ocrbench（acc）、mmstar（acc）、mmvet（acc）多项测评的得分超过openai的gpt-4o。

在推理能力方面，2506版本在mmmu（val，pass@1）、mmmu-pro（pass@1）上的测试成绩超过qwen2.5-vl-7b、gemma3-12b-it，不如gpt-4o，但差距有所缩小。

在数学能力方面，2506版本在math-vision（pass@1）、mathvista_mini（pass@1）中得分大超gpt-4o。