3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o

2025年06月23日19:40:21 科技 2007

智东西(公众号:zhidxcom)

作者 | 李水青

编辑 | 心缘

智东西6月23日报道,月之暗面今日开源多模态模型kimi-vl-a3b-thinking-2506,这是其首个开源多模态推理模型kimi-vl-a3b-thinking发布两个月后的更新版本,可凭借2.8b激活参数(16b总参数)在多项测评中超越gpt-4o、qwen2.5-vl-7b等模型。

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

▲hugging face截图

开源地址:https://huggingface.co/moonshotai/kimi-vl-a3b-thinking-2506

与之前的版本相比,2506版本提供了多项全新或改进的功能:

1、它在消耗更少tokens的同时思考得更聪明:2506版本在多模态推理基准上达到了更好的准确率:mathvision上得分为56.9(+20.1),mathvista上为80.1(+8.4),mmmu-pro上为46.3(+3.2),mmmu上为64.0(+2.1),而平均需要减少20%的思考长度。

2、思考过程更清楚可见:与之前的思考版本不同,2506版本在一般的视觉感知和理解上也能达到相同甚至更好的能力,例如mmbench-en-v1.1(84.4)、mmstar(70.4)、realworldqa(70.0)、mmvet(78.4),超越或匹配其非思考模型(kimi-vl-a3b-instruct)的能力。

3、扩展至视频场景:2506版本在视频推理和理解基准方面也有显著提升。它在videommmu上为开源模型刷新记录(65.2),同时在通用视频理解方面也保持了良好的性能,在video-mme上达到71.9,与kimi-vl-a3b-instruct相当。

4、分辨率进一步提升:2506版本支持单张图像320万像素(1792×1792),比上一版本提升了4倍。这在高分辨率感知和os-agent基准测试中带来了显著提升:在v* benchmark(未使用额外工具)上得分为83.2,在screenspot-pro上得分为52.8,在osworld-g上得分为52.5。

具体来看,与业界顶尖模型和kimi-vl的两个先前版本的比较,2506版本测试性能明显提升:

在通用多模态方面,2506版本在mmbench-en-v1.1(acc)、ocrbench(acc)、mmstar(acc)、mmvet(acc)多项测评的得分超过openai的gpt-4o。

在推理能力方面,2506版本在mmmu(val,pass@1)、mmmu-pro(pass@1)上的测试成绩超过qwen2.5-vl-7b、gemma3-12b-it,不如gpt-4o,但差距有所缩小。

在数学能力方面,2506版本在math-vision(pass@1)、mathvista_mini(pass@1)中得分大超gpt-4o。

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

在视频能力方面,2506版本在videommmu(pass@1)、mmvu(pass@1)、video-mme(w/sub.)多项测评中超过qwen2.5-vl-7b、gemma3-12b-it,与gpt-4o的差距缩小。

在agent落地方面,2506版本在screenspot-pro(acc)、screenspot-v2(acc)、osworld-g(acc)测试中得分都超越qwen2.5-vl-7b。

在长文本方面,2506版本在mmlongbench-doc(acc)测试中超越qwen2.5-vl-7b,与gpt-4o接近。

如下图所示,与30-70b的开源模型对比,2506版本的大部分测试已经超越qwen2.5-vl-32b、gemma3-27b-it,看齐qwen2.5-vl-72b。

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

来源:hugging face

科技分类资讯推荐

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV,第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴,以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级,兼顾商务体面与家庭舒适,为西北高端用户带来一站式全能出行解决方案。
采购禁入!科华数据材料造假被拒门外 - 天天要闻

采购禁入!科华数据材料造假被拒门外

本报(chinatimes.net.cn)记者胡雅文 北京报道这家赶上AI算力风口的公司,因投标材料造假,被相关采购方列入禁入名单两年,其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告,明确驳回科华数据股份有限公司(下称“科华数据”,002335.SZ)此前提交的复议申请。早在一年前,科华数据已被认定在“信息通信枢纽...
快评乐道L80:15万元级买大五座,这波值得冲? - 天天要闻

快评乐道L80:15万元级买大五座,这波值得冲?

日前,乐道L80正式发布并开启预售,其整车购买预售价为24.58万元起,租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势,这款乐道年度重磅新车都有哪些优势?又能否成为“大五座SUV革新之作”?下面,圈哥就带大家全方位感受。
成都直击凯威德:纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德:纯电全尺寸SUV的张扬与大气

4月22日,凯迪拉克以奥斯卡级盛典规格,将上海保利大剧院点亮为璀璨舞台,在品牌代言人倪妮与全场嘉宾的共同见证下,凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置,官方售价区间为46.88万-50.88万元。