3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o

2025年06月23日19:40:21 科技 2007

智東西(公眾號:zhidxcom)

作者 | 李水青

編輯 | 心緣

智東西6月23日報道,月之暗面今日開源多模態模型kimi-vl-a3b-thinking-2506,這是其首個開源多模態推理模型kimi-vl-a3b-thinking發布兩個月後的更新版本,可憑藉2.8b激活參數(16b總參數)在多項測評中超越gpt-4o、qwen2.5-vl-7b等模型。

3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o - 天天要聞

▲hugging face截圖

開源地址:https://huggingface.co/moonshotai/kimi-vl-a3b-thinking-2506

與之前的版本相比,2506版本提供了多項全新或改進的功能:

1、它在消耗更少tokens的同時思考得更聰明:2506版本在多模態推理基準上達到了更好的準確率:mathvision上得分為56.9(+20.1),mathvista上為80.1(+8.4),mmmu-pro上為46.3(+3.2),mmmu上為64.0(+2.1),而平均需要減少20%的思考長度。

2、思考過程更清楚可見:與之前的思考版本不同,2506版本在一般的視覺感知和理解上也能達到相同甚至更好的能力,例如mmbench-en-v1.1(84.4)、mmstar(70.4)、realworldqa(70.0)、mmvet(78.4),超越或匹配其非思考模型(kimi-vl-a3b-instruct)的能力。

3、擴展至視頻場景:2506版本在視頻推理和理解基準方面也有顯著提升。它在videommmu上為開源模型刷新記錄(65.2),同時在通用視頻理解方面也保持了良好的性能,在video-mme上達到71.9,與kimi-vl-a3b-instruct相當。

4、分辨率進一步提升:2506版本支持單張圖像320萬像素(1792×1792),比上一版本提升了4倍。這在高分辨率感知和os-agent基準測試中帶來了顯著提升:在v* benchmark(未使用額外工具)上得分為83.2,在screenspot-pro上得分為52.8,在osworld-g上得分為52.5。

具體來看,與業界頂尖模型和kimi-vl的兩個先前版本的比較,2506版本測試性能明顯提升:

在通用多模態方面,2506版本在mmbench-en-v1.1(acc)、ocrbench(acc)、mmstar(acc)、mmvet(acc)多項測評的得分超過openai的gpt-4o。

在推理能力方面,2506版本在mmmu(val,pass@1)、mmmu-pro(pass@1)上的測試成績超過qwen2.5-vl-7b、gemma3-12b-it,不如gpt-4o,但差距有所縮小。

在數學能力方面,2506版本在math-vision(pass@1)、mathvista_mini(pass@1)中得分大超gpt-4o。

3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o - 天天要聞

3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o - 天天要聞

在視頻能力方面,2506版本在videommmu(pass@1)、mmvu(pass@1)、video-mme(w/sub.)多項測評中超過qwen2.5-vl-7b、gemma3-12b-it,與gpt-4o的差距縮小。

在agent落地方面,2506版本在screenspot-pro(acc)、screenspot-v2(acc)、osworld-g(acc)測試中得分都超越qwen2.5-vl-7b。

在長文本方面,2506版本在mmlongbench-doc(acc)測試中超越qwen2.5-vl-7b,與gpt-4o接近。

如下圖所示,與30-70b的開源模型對比,2506版本的大部分測試已經超越qwen2.5-vl-32b、gemma3-27b-it,看齊qwen2.5-vl-72b。

3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o - 天天要聞

3B挑戰70B!月之暗面Kimi-VL新版開源:數學、視頻等多項指標超越GPT-4o - 天天要聞

來源:hugging face

科技分類資訊推薦

哪吒汽車董事長方運舟遭員工圍堵討薪,方運舟質問員工,詳情曝出 - 天天要聞

哪吒汽車董事長方運舟遭員工圍堵討薪,方運舟質問員工,詳情曝出

6月12日,有視頻顯示:哪吒汽車董事長辦公室門口,穿工服的員工們圍着玻璃門坐着,地上散落着幾張薪資單。方運舟從門裡探出頭時,眉頭皺得很緊:“要談就選三個人進來,搞成這樣幹什麼?”這話剛落,門外就響起了反問:“這是解決問題的態度嗎?”初夏的陽光透過寫字樓玻璃照在
vivo X Fold5摺疊屏手機首次實現一鍵車載智慧投屏 - 天天要聞

vivo X Fold5摺疊屏手機首次實現一鍵車載智慧投屏

IT之家 6 月 23 日消息,vivo 產品經理韓伯嘯今日轉發一則 vivo X Fold5 演示視頻,新機提供“手車互聯深度體驗,無縫破壁車機系統,首次實現一鍵車載智慧投屏”。他還透露,目前 OS 版本 OriginOS 5 及以上,且
30塊錢坐一次,特斯拉Robotaxi正式上線! - 天天要聞

30塊錢坐一次,特斯拉Robotaxi正式上線!

近期,特斯拉CEO埃隆·馬斯克(Elon Musk)宣布“推出自動駕駛出租車”。同時它在社交軟件上表示,熱烈祝賀特斯拉AI軟件和芯片設計團隊成功推出自動駕駛出租車,這是十年辛勤工作的成果。AI芯片和軟件團隊都是在特斯拉內部從零開始組建的。
華為砸300個億,在貴州建全球最牛的數據中心!為什麼選貴州? - 天天要聞

華為砸300個億,在貴州建全球最牛的數據中心!為什麼選貴州?

文|青茶前言在數字經濟高速發展的今天,算力成為推動社會進步和科技創新的關鍵力量。貴州,憑藉優越的自然條件和政策支持,正迅速崛起為中國乃至全球的算力高地。華為在貴州砸下300億元巨資建設的雲智算中心,集聚了超過百萬台服務器,成為全球最大規模的
阿維塔全系車型齊聚重慶車展 展現品牌實力與創新 - 天天要聞

阿維塔全系車型齊聚重慶車展 展現品牌實力與創新

作為重慶車展的主場品牌,阿維塔以單品均價超27萬元和四年銷量超15萬輛的業績奠定了它在中國豪華品牌的巋然地位。四年時間,這個品牌走完了其他品牌至少需要八年的發展歷程,這就是令人驚嘆的“阿維塔速度”。
小米新品發布會定檔 6 月 26 日,MIX Flip 2、REDMI K80 至尊版、小米 YU7 SUV 同期發布 - 天天要聞

小米新品發布會定檔 6 月 26 日,MIX Flip 2、REDMI K80 至尊版、小米 YU7 SUV 同期發布

今天上午,小米官方以及旗下 REDMI 品牌正式官宣,將於本周四 6 月 26 日舉行小米人車家全生態發布會並發布多款新品。包括小米首款 SUV,小米 YU7、小米 MIX Flip 2 小摺疊旗艦手機、小米平板 7S Pro、REDMI K80 至尊版、REDMI K Pad 等產品在內。除此之外,據爆料顯示還將包括小米 AI 眼鏡、小米開放式耳機 Pro