3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o

2025年06月23日19:40:21 科技 2007

智东西(公众号:zhidxcom)

作者 | 李水青

编辑 | 心缘

智东西6月23日报道,月之暗面今日开源多模态模型kimi-vl-a3b-thinking-2506,这是其首个开源多模态推理模型kimi-vl-a3b-thinking发布两个月后的更新版本,可凭借2.8b激活参数(16b总参数)在多项测评中超越gpt-4o、qwen2.5-vl-7b等模型。

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

▲hugging face截图

开源地址:https://huggingface.co/moonshotai/kimi-vl-a3b-thinking-2506

与之前的版本相比,2506版本提供了多项全新或改进的功能:

1、它在消耗更少tokens的同时思考得更聪明:2506版本在多模态推理基准上达到了更好的准确率:mathvision上得分为56.9(+20.1),mathvista上为80.1(+8.4),mmmu-pro上为46.3(+3.2),mmmu上为64.0(+2.1),而平均需要减少20%的思考长度。

2、思考过程更清楚可见:与之前的思考版本不同,2506版本在一般的视觉感知和理解上也能达到相同甚至更好的能力,例如mmbench-en-v1.1(84.4)、mmstar(70.4)、realworldqa(70.0)、mmvet(78.4),超越或匹配其非思考模型(kimi-vl-a3b-instruct)的能力。

3、扩展至视频场景:2506版本在视频推理和理解基准方面也有显著提升。它在videommmu上为开源模型刷新记录(65.2),同时在通用视频理解方面也保持了良好的性能,在video-mme上达到71.9,与kimi-vl-a3b-instruct相当。

4、分辨率进一步提升:2506版本支持单张图像320万像素(1792×1792),比上一版本提升了4倍。这在高分辨率感知和os-agent基准测试中带来了显著提升:在v* benchmark(未使用额外工具)上得分为83.2,在screenspot-pro上得分为52.8,在osworld-g上得分为52.5。

具体来看,与业界顶尖模型和kimi-vl的两个先前版本的比较,2506版本测试性能明显提升:

在通用多模态方面,2506版本在mmbench-en-v1.1(acc)、ocrbench(acc)、mmstar(acc)、mmvet(acc)多项测评的得分超过openai的gpt-4o。

在推理能力方面,2506版本在mmmu(val,pass@1)、mmmu-pro(pass@1)上的测试成绩超过qwen2.5-vl-7b、gemma3-12b-it,不如gpt-4o,但差距有所缩小。

在数学能力方面,2506版本在math-vision(pass@1)、mathvista_mini(pass@1)中得分大超gpt-4o。

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

在视频能力方面,2506版本在videommmu(pass@1)、mmvu(pass@1)、video-mme(w/sub.)多项测评中超过qwen2.5-vl-7b、gemma3-12b-it,与gpt-4o的差距缩小。

在agent落地方面,2506版本在screenspot-pro(acc)、screenspot-v2(acc)、osworld-g(acc)测试中得分都超越qwen2.5-vl-7b。

在长文本方面,2506版本在mmlongbench-doc(acc)测试中超越qwen2.5-vl-7b,与gpt-4o接近。

如下图所示,与30-70b的开源模型对比,2506版本的大部分测试已经超越qwen2.5-vl-32b、gemma3-27b-it,看齐qwen2.5-vl-72b。

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o - 天天要闻

来源:hugging face

科技分类资讯推荐

华为砸300个亿,在贵州建全球最牛的数据中心!为什么选贵州? - 天天要闻

华为砸300个亿,在贵州建全球最牛的数据中心!为什么选贵州?

文|青茶前言在数字经济高速发展的今天,算力成为推动社会进步和科技创新的关键力量。贵州,凭借优越的自然条件和政策支持,正迅速崛起为中国乃至全球的算力高地。华为在贵州砸下300亿元巨资建设的云智算中心,集聚了超过百万台服务器,成为全球最大规模的
阿维塔全系车型齐聚重庆车展 展现品牌实力与创新 - 天天要闻

阿维塔全系车型齐聚重庆车展 展现品牌实力与创新

作为重庆车展的主场品牌,阿维塔以单品均价超27万元和四年销量超15万辆的业绩奠定了它在中国豪华品牌的岿然地位。四年时间,这个品牌走完了其他品牌至少需要八年的发展历程,这就是令人惊叹的“阿维塔速度”。
小米新品发布会定档 6 月 26 日,MIX Flip 2、REDMI K80 至尊版、小米 YU7 SUV 同期发布 - 天天要闻

小米新品发布会定档 6 月 26 日,MIX Flip 2、REDMI K80 至尊版、小米 YU7 SUV 同期发布

今天上午,小米官方以及旗下 REDMI 品牌正式官宣,将于本周四 6 月 26 日举行小米人车家全生态发布会并发布多款新品。包括小米首款 SUV,小米 YU7、小米 MIX Flip 2 小折叠旗舰手机、小米平板 7S Pro、REDMI K80 至尊版、REDMI K Pad 等产品在内。除此之外,据爆料显示还将包括小米 AI 眼镜、小米开放式耳机 Pro
三星 Exynos 2500 芯片发布, Galaxy Z Flip7 首发搭载 - 天天要闻

三星 Exynos 2500 芯片发布, Galaxy Z Flip7 首发搭载

近日,三星正式发布了旗下新一代旗舰处理器三星 Exynos 2500 芯片。据悉,三星 Exynos 2500 基于三星 3nm GAA 工艺打造,采用 10 核心设计,具体为 1 颗 3.3GHz 主频 Cortex-X925 大核心 +2 颗 2.74GHz 主频 Cortex-A725 核心 +5 颗 2.36GHz 主频 Cortex-A725 核心
iQOO 15 迎早期爆料, 6.85 英寸 2K 分辨率三星 LTPO 四窄边大直屏加持 - 天天要闻

iQOO 15 迎早期爆料, 6.85 英寸 2K 分辨率三星 LTPO 四窄边大直屏加持

今天,数码博主数码闲聊站也带来了疑似 iQOO 新一代旗舰的最新消息。同时根据目前爆料来看,iQOO 旗舰预计跳过 14 直接以 iQOO 15 命名。据悉,iQOO 15 将会搭载一块 6.85 英寸 2K 分辨率三星 LTPO 四窄边大直屏,支持 Pol-less 去偏光技术,AR 扛眩光膜等技术,是目前的爆料中子系列旗舰中屏幕规格最高的一款。除此之外目
特斯拉上线Robotaxi:十年押注AI商业化的第一枪|钛度车库 - 天天要闻

特斯拉上线Robotaxi:十年押注AI商业化的第一枪|钛度车库

图片来源网络一场迟到的兑现,或许正成为特斯拉未来命运的分水岭。近日,特斯拉在美国得克萨斯州奥斯汀地区悄然上线Robotaxi试点服务。试运营仅面向受邀用户开放,服务区域局限于奥斯汀南部,车辆配备安全员,每次乘坐收费4.2美元(约合人民币30元)。这项低调启动的服务,虽看似微不足道,却标志着特斯拉自动驾驶战略自20...
成立6个月,公司卖了5亿,员工财富自由 - 天天要闻

成立6个月,公司卖了5亿,员工财富自由

(图片由豆包AI生成 提示词财富自由 游艇)AI造富到底有多凶猛?近日,一起并购进入我们视野:海外互联网巨头Wix宣布,正式收购一家AI初创公司Base44,交易金额为8000万美元(约合5.7亿元人民币),以现金支付。乍眼一看,交易双方都