3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o

2025年06月23日19:40:21 科技 2007

智东西(公众号:zhidxcom)

作者 | 李水青

编辑 | 心缘

智东西6月23日报道,月之暗面今日开源多模态模型kimi-vl-a3b-thinking-2506,这是其首个开源多模态推理模型kimi-vl-a3b-thinking发布两个月后的更新版本,可凭借2.8b激活参数(16b总参数)在多项测评中超越gpt-4o、qwen2.5-vl-7b等模型。

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

▲hugging face截图

开源地址:https://huggingface.co/moonshotai/kimi-vl-a3b-thinking-2506

与之前的版本相比,2506版本提供了多项全新或改进的功能:

1、它在消耗更少tokens的同时思考得更聪明:2506版本在多模态推理基准上达到了更好的准确率:mathvision上得分为56.9(+20.1),mathvista上为80.1(+8.4),mmmu-pro上为46.3(+3.2),mmmu上为64.0(+2.1),而平均需要减少20%的思考长度。

2、思考过程更清楚可见:与之前的思考版本不同,2506版本在一般的视觉感知和理解上也能达到相同甚至更好的能力,例如mmbench-en-v1.1(84.4)、mmstar(70.4)、realworldqa(70.0)、mmvet(78.4),超越或匹配其非思考模型(kimi-vl-a3b-instruct)的能力。

3、扩展至视频场景:2506版本在视频推理和理解基准方面也有显著提升。它在videommmu上为开源模型刷新记录(65.2),同时在通用视频理解方面也保持了良好的性能,在video-mme上达到71.9,与kimi-vl-a3b-instruct相当。

4、分辨率进一步提升:2506版本支持单张图像320万像素(1792×1792),比上一版本提升了4倍。这在高分辨率感知和os-agent基准测试中带来了显著提升:在v* benchmark(未使用额外工具)上得分为83.2,在screenspot-pro上得分为52.8,在osworld-g上得分为52.5。

具体来看,与业界顶尖模型和kimi-vl的两个先前版本的比较,2506版本测试性能明显提升:

在通用多模态方面,2506版本在mmbench-en-v1.1(acc)、ocrbench(acc)、mmstar(acc)、mmvet(acc)多项测评的得分超过openai的gpt-4o。

在推理能力方面,2506版本在mmmu(val,pass@1)、mmmu-pro(pass@1)上的测试成绩超过qwen2.5-vl-7b、gemma3-12b-it,不如gpt-4o,但差距有所缩小。

在数学能力方面,2506版本在math-vision(pass@1)、mathvista_mini(pass@1)中得分大超gpt-4o。

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

在视频能力方面,2506版本在videommmu(pass@1)、mmvu(pass@1)、video-mme(w/sub.)多项测评中超过qwen2.5-vl-7b、gemma3-12b-it,与gpt-4o的差距缩小。

在agent落地方面,2506版本在screenspot-pro(acc)、screenspot-v2(acc)、osworld-g(acc)测试中得分都超越qwen2.5-vl-7b。

在长文本方面,2506版本在mmlongbench-doc(acc)测试中超越qwen2.5-vl-7b,与gpt-4o接近。

如下图所示,与30-70b的开源模型对比,2506版本的大部分测试已经超越qwen2.5-vl-32b、gemma3-27b-it,看齐qwen2.5-vl-72b。

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

来源:hugging face

科技分类资讯推荐

哪吒汽车董事长方运舟遭员工围堵讨薪,方运舟质问员工,详情曝出 - 天天要闻

哪吒汽车董事长方运舟遭员工围堵讨薪,方运舟质问员工,详情曝出

6月12日,有视频显示:哪吒汽车董事长办公室门口,穿工服的员工们围着玻璃门坐着,地上散落着几张薪资单。方运舟从门里探出头时,眉头皱得很紧:“要谈就选三个人进来,搞成这样干什么?”这话刚落,门外就响起了反问:“这是解决问题的态度吗?”初夏的阳光透过写字楼玻璃照在
vivo X Fold5折叠屏手机首次实现一键车载智慧投屏 - 天天要闻

vivo X Fold5折叠屏手机首次实现一键车载智慧投屏

IT之家 6 月 23 日消息,vivo 产品经理韩伯啸今日转发一则 vivo X Fold5 演示视频,新机提供“手车互联深度体验,无缝破壁车机系统,首次实现一键车载智慧投屏”。他还透露,目前 OS 版本 OriginOS 5 及以上,且
30块钱坐一次,特斯拉Robotaxi正式上线! - 天天要闻

30块钱坐一次,特斯拉Robotaxi正式上线!

近期,特斯拉CEO埃隆·马斯克(Elon Musk)宣布“推出自动驾驶出租车”。同时它在社交软件上表示,热烈祝贺特斯拉AI软件和芯片设计团队成功推出自动驾驶出租车,这是十年辛勤工作的成果。AI芯片和软件团队都是在特斯拉内部从零开始组建的。
华为砸300个亿,在贵州建全球最牛的数据中心!为什么选贵州? - 天天要闻

华为砸300个亿,在贵州建全球最牛的数据中心!为什么选贵州?

文|青茶前言在数字经济高速发展的今天,算力成为推动社会进步和科技创新的关键力量。贵州,凭借优越的自然条件和政策支持,正迅速崛起为中国乃至全球的算力高地。华为在贵州砸下300亿元巨资建设的云智算中心,集聚了超过百万台服务器,成为全球最大规模的
阿维塔全系车型齐聚重庆车展 展现品牌实力与创新 - 天天要闻

阿维塔全系车型齐聚重庆车展 展现品牌实力与创新

作为重庆车展的主场品牌,阿维塔以单品均价超27万元和四年销量超15万辆的业绩奠定了它在中国豪华品牌的岿然地位。四年时间,这个品牌走完了其他品牌至少需要八年的发展历程,这就是令人惊叹的“阿维塔速度”。
小米新品发布会定档 6 月 26 日,MIX Flip 2、REDMI K80 至尊版、小米 YU7 SUV 同期发布 - 天天要闻

小米新品发布会定档 6 月 26 日,MIX Flip 2、REDMI K80 至尊版、小米 YU7 SUV 同期发布

今天上午,小米官方以及旗下 REDMI 品牌正式官宣,将于本周四 6 月 26 日举行小米人车家全生态发布会并发布多款新品。包括小米首款 SUV,小米 YU7、小米 MIX Flip 2 小折叠旗舰手机、小米平板 7S Pro、REDMI K80 至尊版、REDMI K Pad 等产品在内。除此之外,据爆料显示还将包括小米 AI 眼镜、小米开放式耳机 Pro