智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 心缘
智东西6月23日报道,月之暗面今日开源多模态模型kimi-vl-a3b-thinking-2506,这是其首个开源多模态推理模型kimi-vl-a3b-thinking发布两个月后的更新版本,可凭借2.8b激活参数(16b总参数)在多项测评中超越gpt-4o、qwen2.5-vl-7b等模型。
▲hugging face截图
开源地址:https://huggingface.co/moonshotai/kimi-vl-a3b-thinking-2506
与之前的版本相比,2506版本提供了多项全新或改进的功能:
1、它在消耗更少tokens的同时思考得更聪明:2506版本在多模态推理基准上达到了更好的准确率:mathvision上得分为56.9(+20.1),mathvista上为80.1(+8.4),mmmu-pro上为46.3(+3.2),mmmu上为64.0(+2.1),而平均需要减少20%的思考长度。
2、思考过程更清楚可见:与之前的思考版本不同,2506版本在一般的视觉感知和理解上也能达到相同甚至更好的能力,例如mmbench-en-v1.1(84.4)、mmstar(70.4)、realworldqa(70.0)、mmvet(78.4),超越或匹配其非思考模型(kimi-vl-a3b-instruct)的能力。
3、扩展至视频场景:2506版本在视频推理和理解基准方面也有显著提升。它在videommmu上为开源模型刷新记录(65.2),同时在通用视频理解方面也保持了良好的性能,在video-mme上达到71.9,与kimi-vl-a3b-instruct相当。
4、分辨率进一步提升:2506版本支持单张图像320万像素(1792×1792),比上一版本提升了4倍。这在高分辨率感知和os-agent基准测试中带来了显著提升:在v* benchmark(未使用额外工具)上得分为83.2,在screenspot-pro上得分为52.8,在osworld-g上得分为52.5。
具体来看,与业界顶尖模型和kimi-vl的两个先前版本的比较,2506版本测试性能明显提升:
在通用多模态方面,2506版本在mmbench-en-v1.1(acc)、ocrbench(acc)、mmstar(acc)、mmvet(acc)多项测评的得分超过openai的gpt-4o。
在推理能力方面,2506版本在mmmu(val,pass@1)、mmmu-pro(pass@1)上的测试成绩超过qwen2.5-vl-7b、gemma3-12b-it,不如gpt-4o,但差距有所缩小。
在数学能力方面,2506版本在math-vision(pass@1)、mathvista_mini(pass@1)中得分大超gpt-4o。
在视频能力方面,2506版本在videommmu(pass@1)、mmvu(pass@1)、video-mme(w/sub.)多项测评中超过qwen2.5-vl-7b、gemma3-12b-it,与gpt-4o的差距缩小。
在agent落地方面,2506版本在screenspot-pro(acc)、screenspot-v2(acc)、osworld-g(acc)测试中得分都超越qwen2.5-vl-7b。
在长文本方面,2506版本在mmlongbench-doc(acc)测试中超越qwen2.5-vl-7b,与gpt-4o接近。
如下图所示,与30-70b的开源模型对比,2506版本的大部分测试已经超越qwen2.5-vl-32b、gemma3-27b-it,看齐qwen2.5-vl-72b。
来源:hugging face