3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o

2025年06月23日19:40:21 科技 2007

智東西(公眾號:zhidxcom)

作者 | 李水青

編輯 | 心緣

智東西6月23日報道,月之暗面今日開源多模態模型kimi-vl-a3b-thinking-2506,這是其首個開源多模態推理模型kimi-vl-a3b-thinking發布兩個月後的更新版本,可憑藉2.8b激活參數(16b總參數)在多項測評中超越gpt-4o、qwen2.5-vl-7b等模型。

3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o - 天天要聞

▲hugging face截圖

開源地址:https://huggingface.co/moonshotai/kimi-vl-a3b-thinking-2506

與之前的版本相比,2506版本提供了多項全新或改進的功能:

1、它在消耗更少tokens的同時思考得更聰明:2506版本在多模態推理基準上達到了更好的準確率:mathvision上得分為56.9(+20.1),mathvista上為80.1(+8.4),mmmu-pro上為46.3(+3.2),mmmu上為64.0(+2.1),而平均需要減少20%的思考長度。

2、思考過程更清楚可見:與之前的思考版本不同,2506版本在一般的視覺感知和理解上也能達到相同甚至更好的能力,例如mmbench-en-v1.1(84.4)、mmstar(70.4)、realworldqa(70.0)、mmvet(78.4),超越或匹配其非思考模型(kimi-vl-a3b-instruct)的能力。

3、擴展至視頻場景:2506版本在視頻推理和理解基準方面也有顯著提升。它在videommmu上為開源模型刷新記錄(65.2),同時在通用視頻理解方面也保持了良好的性能,在video-mme上達到71.9,與kimi-vl-a3b-instruct相當。

4、分辨率進一步提升:2506版本支持單張圖像320萬像素(1792×1792),比上一版本提升了4倍。這在高分辨率感知和os-agent基準測試中帶來了顯著提升:在v* benchmark(未使用額外工具)上得分為83.2,在screenspot-pro上得分為52.8,在osworld-g上得分為52.5。

具體來看,與業界頂尖模型和kimi-vl的兩個先前版本的比較,2506版本測試性能明顯提升:

在通用多模態方面,2506版本在mmbench-en-v1.1(acc)、ocrbench(acc)、mmstar(acc)、mmvet(acc)多項測評的得分超過openai的gpt-4o。

在推理能力方面,2506版本在mmmu(val,pass@1)、mmmu-pro(pass@1)上的測試成績超過qwen2.5-vl-7b、gemma3-12b-it,不如gpt-4o,但差距有所縮小。

在數學能力方面,2506版本在math-vision(pass@1)、mathvista_mini(pass@1)中得分大超gpt-4o。

3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o - 天天要聞

3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o - 天天要聞

在視頻能力方面,2506版本在videommmu(pass@1)、mmvu(pass@1)、video-mme(w/sub.)多項測評中超過qwen2.5-vl-7b、gemma3-12b-it,與gpt-4o的差距縮小。

在agent落地方面,2506版本在screenspot-pro(acc)、screenspot-v2(acc)、osworld-g(acc)測試中得分都超越qwen2.5-vl-7b。

在長文本方面,2506版本在mmlongbench-doc(acc)測試中超越qwen2.5-vl-7b,與gpt-4o接近。

如下圖所示,與30-70b的開源模型對比,2506版本的大部分測試已經超越qwen2.5-vl-32b、gemma3-27b-it,看齊qwen2.5-vl-72b。

3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o - 天天要聞

3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o - 天天要聞

來源:hugging face

科技分類資訊推薦

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV,第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊,以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級,兼顧商務體面與家庭舒適,為西北高端用戶帶來一站式全能出行解決方案。
採購禁入!科華數據材料造假被拒門外 - 天天要聞

採購禁入!科華數據材料造假被拒門外

本報(chinatimes.net.cn)記者胡雅文 北京報道這家趕上AI算力風口的公司,因投標材料造假,被相關採購方列入禁入名單兩年,其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告,明確駁回科華數據股份有限公司(下稱“科華數據”,002335.SZ)此前提交的複議申請。早在一年前,科華數據已被認定在“信息通信樞紐...
快評樂道L80:15萬元級買大五座,這波值得沖? - 天天要聞

快評樂道L80:15萬元級買大五座,這波值得沖?

日前,樂道L80正式發布並開啟預售,其整車購買預售價為24.58萬元起,租電購買預售價則低至15.98萬元起。面對大型SUV市場“細分再細分”之競爭趨勢,這款樂道年度重磅新車都有哪些優勢?又能否成為“大五座SUV革新之作”?下面,圈哥就帶大家全方位感受。
成都直擊凱威德:純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德:純電全尺寸SUV的張揚與大氣

4月22日,凱迪拉克以奧斯卡級盛典規格,將上海保利大劇院點亮為璀璨舞台,在品牌代言人倪妮與全場嘉賓的共同見證下,凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置,官方售價區間為46.88萬-50.88萬元。