剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座

2025年04月06日09:30:26 科技 6543

新智元報道

編輯：編輯部 jny

【新智元導讀】原生多模態llama 4終於問世，開源王座一夜易主！首批共有兩款模型scout和maverick，前者業界首款支持1000萬上下文單h100可跑，後者更是一舉擊敗了deepseek v3。目前，2萬億參數巨獸還在訓練中。

一大早，llama 4重磅發佈了！

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

meta官宣開源首個原生多模態llama 4，首次採用的moe架構，支持12種語言，首批發佈一共兩款：

llama 4 scout：共有1090億參數，17b活躍參數，16個專家，1000萬上下

llama 4 maverick：共有4000億參數，17b活躍參數，128個專家，100萬上下文

另外，2萬億參數llama 4 behemoth將在未來幾個月面世，288b活躍參數，16個專家。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

llama 4的橫空出世，成為迄今為止開源最強，多模態能力最好的模型之一。

在大模型lmsys排行榜上，llama 4 maverick衝上第二（ elo得分1417），僅次於閉源gemini 2.5 pro。

更值得一提的是，僅用一半參數，maverick推理編碼能力與deepseek-v3-0324實力相當。

llama 4 scout最大亮點在於支持1000萬上下文，相當於可以處理20+小時的視頻，僅在單個h100 gpu（int4 量化後）上就能跑。

在基準測試中，性能超越gemma 3、gemini 2.0 flash-lite、mistral 3.1。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

即將面世的llama 4 behemoth（仍在訓練中），是maverick協同蒸餾的教師模型，使用30t多模態token在32k個gpu上進行預訓練（fp8）。

目前在stem基準測試中，超越了gpt-4.5、claude sonnet 3.7、gemini 2.0 pro。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

小扎激動地在官宣視頻中稱，「今天是llama 4日」！

llama 4開源後，deepseek r2還遠嗎？

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

此前報道稱，deepseek r2最晚在5發佈，看來可能要提前了...

史上最強llama 4開源，超越deepseek v3

llama 4模型開源，標誌着llama生態系統進入了一個新紀元。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

即日起，所有開發者可以在llama.com和hugging face下載這兩款最新的模型

在大模型排行榜中，llama 4 maverick在硬提示（hard prompt）、編程、數學、創意寫作、長查詢和多輪對話中，並列第一。

僅在樣式控制下，排名第五。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

而且，1000萬上下文llama 4 scout還擊敗了openai的模型。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

每個人還可以在whatsapp、messenger、instagram direct和網頁上體驗基於llama 4的應用。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

首次採用moe，單個h100即可跑

llama團隊設計了兩款高效的llama 4系列模型，只要單個h100 gpu就能運行：

一個是llama 4 scout（擁有170億個活躍參數和16個專家），使用int4量化可以在單個h100 gpu上運行；

另一個是llama 4 maverick（擁有170億個活躍參數和128個專家），可以在單個h100主機上運行。

目前，正在訓練的教師模型——llama 4 behemoth，它在stem基準測試（如math-500和gpqa diamond）中，性能優於gpt-4.5、claude sonnet 3.7、gemini 2.0 pro。

在最新博文中，meta分享了更多的關於llama 4家族訓練的技術細節。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

在英偉達b200上，llama 4可以每秒處理42400個token

預訓練

llama 4模型是llama系列模型中首批採用混合專家（moe）架構的模型。

在moe模型中，單獨的token只會激活全部參數中的一小部分。

與傳統的稠密模型相比，moe架構在訓練和推理時的計算效率更高，並且在相同的訓練flops預算下，能夠生成更高質量的結果。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

架構概覽，右為混合專家（moe）架構

舉個例子，llama 4 maverick模型的4000億個總參數中有170億個活躍參數。

為了提高推理效率，meta交替使用了稠密層和專家混合（moe）層。

moe層用到了128個路由專家和一個共享專家。每個token都會被送到共享專家，同時也會送到128個路由專家中的一個。

因此，雖然所有參數都存儲在內存中，但在運行這些模型時，只有部分參數會被激活。

這樣就能提升推理效率，降低模型服務的成本和延遲——

llama 4 maverick可以輕鬆部署在一台nvidia h100 dgx主機上運行，或者通過分佈式推理來實現最高效率。

原生多模態設計

llama 4是一個原生多模態模型，採用了早期融合技術，能把文本和視覺token無縫整合到一個統一的模型框架里。

早期融合是個大進步，因為它可以用海量的無標籤文本、圖片和視頻數據一起來預訓練模型。

meta還升級了llama 4的視覺編碼器。這個編碼器基於metaclip，但在訓練時跟一個凍結的llama模型分開進行，這樣能更好地調整編碼器，讓它更好地適配大語言模型（llm）。

模型超參數優化

meta還開發了一種叫做metap的新訓練方法，能讓他們更靠譜地設置關鍵的模型超參數，比如每層的學習率和初始化規模。

這些精心挑選的超參數在不同的批大小、模型寬度、深度和訓練token量上都能很好地適配。

llama 4通過在200種語言上預訓練實現了對開源微調的支持，其中超過10億個token的語言有100多種，整體多語言token量比llama 3多出10倍。

高效的模型訓練，解鎖1000萬輸入上下文長度

此外，meta注重高效的模型訓練，采用了fp8精度，既不犧牲質量，又能保證模型的高flops利用率——

在使用fp8精度和32k個gpu預訓練llama 4 behemoth模型時，達到了每個gpu 390 tflops的性能。

訓練用的整體數據包含了超過30萬億個 token，比llama 3的預訓練數據量翻了一倍還多，涵蓋了文本、圖片和視頻數據集。

meta用一種叫做「中期訓練」的方式來繼續訓練模型，通過新的訓練方法，包括用專門的數據集擴展長上下文，來提升核心能力。

這不僅提高了模型的質量，還為llama 4 scout解鎖了領先的1000萬輸入上下文長度。

後訓練

最新的模型包含了不同的參數規模，滿足各種使用場景和開發者的需求。

llama 4 maverick：參數規模較大，主要用於圖像理解和創意寫作
llama 4 scout：參數規模較小，適用多種任務，支持1000萬token上下文，全球領先。

為了讓不同模型適應不同的任務，針對多模態、超大參數規模等問題，meta開發了一系列新的後訓練方法。

主力模型llama 4 maverick

作為產品的核心模型，llama 4 maverick在圖像精準理解和創意寫作方面表現突出，特別適合通用助手、聊天類應用場景。

訓練llama 4 maverick模型時，最大的挑戰是保持多種輸入模式、推理能力和對話能力之間的平衡。

後訓練流程

為了訓練llama 4，meta重新設計了後訓練流程，採用了全新的方法：

輕量級監督微調（sft）> 在線強化學習（rl）> 輕量級直接偏好優化（dpo）。

一個關鍵發現是，sft和dpo可能會過度限制模型，在在線rl階段限制了探索，導致推理、編程和數學領域的準確性不理想。

為了解決這個問題，meta使用llama模型作為評判者，移除了超過50%的被標記為「簡單」的數據，並對剩餘的更難數據進行輕量級sft。

在隨後的多模態在線rl階段，精心選擇了更難的提示，成功實現了性能的飛躍。

此外，他們還實施了持續在線rl策略，交替進行模型訓練和數據篩選，只保留中等到高難度的提示。這種策略在計算成本和準確性之間取得了很好的平衡。

最後，進行了輕量級的dpo來處理與模型響應質量相關的特殊情況，有效地在模型的智能性和對話能力之間達成了良好的平衡。

新的流程架構加上持續在線rl和自適應數據過濾，最終打造出了一個行業領先的通用聊天模型，擁有頂尖的智能和圖像理解能力。

llama 4 maverick碾壓gpt-4o和gemini 2.0

作為一款通用的llm，llama 4 maverick包含170億個活躍參數，128個專家和4000億個總參數，提供了比llama 3.3 70b更高質量、更低價格的選擇。

llama 4 maverick是同類中最佳的多模態模型，在編程、推理、多語言支持、長上下文和圖像基準測試中超過了類似的模型，如gpt-4o和gemini 2.0，甚至能與體量更大的deepseek v3.1在編碼和推理上競爭。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

通用模型llama 4 scout：1000萬token上下文

規模較小的llama 4 scout是一款通用模型，擁有170億個活躍參數、16個專家和1090億個總參數，在同類別中性能最好。

llama 4 scout 的支持上下文長度從 llama 3 的12.8萬激增到行業領先的1000萬token。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

這為多種應用打開了無限可能，包括多文檔摘要、大規模用戶活動解析以進行個性化任務，以及在龐大的代碼庫中進行推理。

llama 4 scout在預訓練和後訓練時都採用了256k的上下文長度，基礎模型具備了先進的長度泛化能力。

它在一些任務中取得了亮眼成果，比如文本檢索中的「大海撈針式檢索」和在1000萬token代碼上的累積負對數似然（nlls）。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

llama 4架構的一個關鍵創新是使用了交替注意力層，而不依賴於位置嵌入。

此外，在推理時採用了溫度縮放注意力，以增強長度泛化能力。meta將其稱為irope架構，其中「i」代表「交替」（interleaved）注意力層，突出了支持「無限」上下文長度的長期目標，而「rope」則指的是在大多數層中使用的旋轉位置嵌入（rotary position embeddings）。

視覺理解能力

兩款模型進行了大規模的圖像和視頻幀靜態圖像訓練，以賦予它們廣泛的視覺理解能力，包括對時間活動和相關圖像的理解。

它們能夠在多圖像輸入和文本提示的配合下，輕鬆進行視覺推理和理解任務。

模型預訓練時最多用了48張圖像，而在後訓練測試中，最多8張圖像也能取得不錯的效果。

llama 4 scout在圖像定位方面也是同類最佳，能夠將用戶的提示與相關的視覺概念對齊，並將模型的響應錨定到圖像中的特定區域。

這使得更精確的視覺問答成為可能，幫助llm更好地理解用戶意圖並定位感興趣的對象。

編程、推理、長上下文和圖像上，遙遙領先

llama 4 scout在編程、推理、長上下文和圖像基準測試中超過了類似的模型，並且在所有以前的llama模型中表現更強。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

秉承對開源的承諾，meta將llama 4 maverick和llama 4 scout提供給用戶下載，用戶可以在llama.com和hugging face上獲取，之後這些模型還將在最廣泛使用的雲平台、數據平台、邊緣硅片以及全球服務集成商上陸續上線。

2萬億巨獸，幹掉gpt-4.5

llama 4 behemoth是一款「教師模型」，在同級別的模型里，它的智能水平相當高超。

llama 4 behemoth同樣是一個多模態混合專家模型，擁有2880億個活躍參數、16個專家以及近2萬億個總參數。

在數學、多語言處理和圖像基準測試方面，它為非推理模型提供了最先進的性能，成為訓練較小的llama 4模型的理想選擇。

教師模型+全新蒸餾

從llama 4 behemoth中蒸餾出來llama 4 maverick，在最終任務評估指標上大幅提升了質量。

meta開發了一種新的蒸餾損失函數，在訓練過程中動態地加權軟目標和硬目標。

通過從llama 4 behemoth進行共同蒸餾，能夠在預訓練階段分攤計算資源密集型前向計算的成本，這些前向計算用於計算大多數用於學生模型訓練的數據的蒸餾目標。

對於學生訓練中包含的額外新數據，會在behemoth模型上運行前向計算，以生成蒸餾目標。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

後訓練

對一個擁有兩萬億參數的模型進行後訓練也是一個巨大的挑戰，這必須徹底改進和重新設計訓練方案，尤其是在數據規模方面。

為了最大化性能，不得不精簡95%的sft數據，相比之下，較小的模型只精簡了50%的數據，目的是確保在質量和效率上的集中關注。

meta還發現，採用輕量級的sft後接大規模rl能夠顯著提高模型的推理和編碼能力。meta的rl方案專註於通過對策略模型進行pass@k分析來採樣難度較大的提示，並設計逐漸增加提示難度的訓練課程。

在訓練過程中動態地過濾掉沒有優勢的提示，並通過從多個能力中混合提示構建訓練批次，對提升數學、推理和編碼的性能起到了關鍵作用。

最後，從多種系統指令中採樣對於確保模型保持良好的指令跟隨能力，在推理和編碼任務中表現出色也至關重要。

擴展rl訓練

對於兩萬億參數的模型，擴展rl訓練也要求重新設計底層的rl基礎設施，應對前所未有的規模。

meta優化了moe並行化的設計，提高了速度，從而加快了迭代速度。

llama團隊開發了一個完全異步的在線rl訓練框架，提升了靈活性。

與現有的分佈式訓練框架相比，後者為了將所有模型都加載到內存中而犧牲了計算內存，新基礎設施能夠靈活地將不同的模型分配到不同的gpu上，根據計算速度在多個模型之間平衡資源。

這一創新使得訓練效率比之前的版本提升了約10倍。

llama 4一夜成為開源王者，甚至就連deepseek v3最新版也被拉下神壇，接下來就是坐等r2的誕生。

參考資料：

https://x.com/aiatmeta/status/1908598456144531660

https://x.com/astonzhangaz/status/1908595612372885832

https://x.com/lmarena_ai/status/1908601011989782976

科技

國內蘋果監測丨「瘋狂」的蘋果 - 天天要聞

國內蘋果監測丨「瘋狂」的蘋果

蘋果，薔薇科蘋果屬落葉喬木植物，莖幹較高，小枝短而粗，呈圓柱形；葉片橢圓形，表面光滑，果實較大，呈扁球形，果梗短粗。花期5月，果期7~10月。蘋果原產歐洲中部、伊朗北部、俄羅斯高加索南部....

04月07日 6533

客觀評價這次小米SU7事件 - 天天要聞

客觀評價這次小米SU7事件

如果此次事故換成了燃油車，起碼大概率是不會着火的，只要不着火就有施救的可能性，但是一旦着火根本沒有任何營救的可能性。電動車因為撞擊而着火是一個無解的問題。2024年7月25日，四川成都的....

04月07日 2370

蘋果或許能夠暫時推遲產品漲價但不會持續太久 - 天天要聞

蘋果或許能夠暫時推遲產品漲價但不會持續太久

面對高額關稅，蘋果將不得不提高美國和其他地區 iPhone等熱銷產品的價格，但正試圖將漲價推遲到下一次硬件升級。一份新報告顯示，蘋果正在採取多項舉措，以減輕美國和其他國家對其旗艦產品徵收關稅帶來的成本上漲。

04月07日 1823

2025年，走暗路，耕瘦田，進窄門 - 天天要聞

2025年，走暗路，耕瘦田，進窄門

2025年，走暗路，耕瘦田，進窄門有人在網上感嘆，總覺得人生很難出頭，學歷不夠好，家境也很普通，眼看着同學都在大廠、央企，自己卻只能在小公司做個普通職員。我問他：「你覺得這是你的問題嗎？」他愣了一下，不知道如何回答。這讓我想起一句話

04月07日 1919

SU7事故：小米受「智駕反噬」影響最小 - 天天要聞

SU7事故：小米受「智駕反噬」影響最小

俗話說「成也蕭何敗也蕭何」，造車新勢力依靠「腦殘粉」烘托的市場終於要被反噬了，那些為一句「遙遙領先」而歡呼雀躍的人群，現在是不是要倒戈了？上一周車圈最熱門的事件就是小米SU7的事故，身邊人藉此次事故問我小米汽車如何，我說非常好，至少在所有新

04月07日 1316

「技術教父」魏建軍不吐不快：有些人把造車當兒戲，瞎胡鬧！ - 天天要聞

「技術教父」魏建軍不吐不快：有些人把造車當兒戲，瞎胡鬧！

執掌了30年長城汽車的魏建軍，用10秒鐘回答了這個問題：一個是工藝的問題，另一個可能是良心的問題。

04月07日 7532

芯片「教父」張忠謀：56歲創台積電，70歲娶女秘書 - 天天要聞

芯片「教父」張忠謀：56歲創台積電，70歲娶女秘書

張忠謀是全球半導體行業的傳奇人物，56歲創業，70歲迎娶女秘書，晚年卻因爭議言論和商業抉擇頻頻登上頭條。他一手締造了台積電——全球芯片代工領域的霸主，但也因「技術空心化」質疑和婚姻風波飽受爭議。他是張忠謀，一個在戰亂中成長、在美國崛起、在台

04月06日 1068

喊出「生死存亡」！三星能渡過中年危機嗎？ - 天天要聞

喊出「生死存亡」！三星能渡過中年危機嗎？

有人扒出舊賬稱，當年小米某高管因供應鏈問題得罪三星，三星直接斷了小米的貨。如今風水輪流轉，終於換到李在鎔主動登門拜訪了，甚至還有網友誇張地聲稱:「李在鎔終於要給雷軍賠笑臉了。」

04月06日 1576

長安第三代CS55PLUS PHEV智慧全域賦能，補貼後7.99萬元起 - 天天要聞

長安第三代CS55PLUS PHEV智慧全域賦能，補貼後7.99萬元起

3月20日，長安汽車舉辦了長安逸動PHEV & CS55PLUS PHEV 價格及權益發佈，正式推出第三代CS55PLUS PHEV，新車共發佈2款車型，官方指導價區間為10.49萬元至10.99萬元，疊加購車基金及補貼後僅需7.99萬元起！

04月06日 4406

奇瑞艾瑞澤8 PRO上市：一場燃油車的「技術平權」革命 - 天天要聞

奇瑞艾瑞澤8 PRO上市：一場燃油車的「技術平權」革命

在新能源市場，中國品牌已經基本實現了「彎道超車」。從鋒芒畢露的小米SU7 Ultra，到瞄準各級主流SUV市場的問界、比亞迪們，Made in China的純電、插混、增程，已經成功讓「洋品牌」在新一代中國消費者眼中祛魅。

04月06日 3255