剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座

2025年04月06日09:30:26 科技 6543

新智元報道

編輯：編輯部 jny

【新智元導讀】原生多模態llama 4終於問世，開源王座一夜易主！首批共有兩款模型scout和maverick，前者業界首款支持1000萬上下文單h100可跑，後者更是一舉擊敗了deepseek v3。目前，2萬億參數巨獸還在訓練中。

一大早，llama 4重磅發布了！

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

meta官宣開源首個原生多模態llama 4，首次採用的moe架構，支持12種語言，首批發布一共兩款：

llama 4 scout：共有1090億參數，17b活躍參數，16個專家，1000萬上下

llama 4 maverick：共有4000億參數，17b活躍參數，128個專家，100萬上下文

另外，2萬億參數llama 4 behemoth將在未來幾個月面世，288b活躍參數，16個專家。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

llama 4的橫空出世，成為迄今為止開源最強，多模態能力最好的模型之一。

在大模型lmsys排行榜上，llama 4 maverick衝上第二（ elo得分1417），僅次於閉源gemini 2.5 pro。

更值得一提的是，僅用一半參數，maverick推理編碼能力與deepseek-v3-0324實力相當。

llama 4 scout最大亮點在於支持1000萬上下文，相當於可以處理20+小時的視頻，僅在單個h100 gpu（int4 量化後）上就能跑。

在基準測試中，性能超越gemma 3、gemini 2.0 flash-lite、mistral 3.1。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

即將面世的llama 4 behemoth（仍在訓練中），是maverick協同蒸餾的教師模型，使用30t多模態token在32k個gpu上進行預訓練（fp8）。

目前在stem基準測試中，超越了gpt-4.5、claude sonnet 3.7、gemini 2.0 pro。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

小扎激動地在官宣視頻中稱，「今天是llama 4日」！

llama 4開源後，deepseek r2還遠嗎？

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

此前報道稱，deepseek r2最晚在5發布，看來可能要提前了...

史上最強llama 4開源，超越deepseek v3

llama 4模型開源，標誌着llama生態系統進入了一個新紀元。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

即日起，所有開發者可以在llama.com和hugging face下載這兩款最新的模型

在大模型排行榜中，llama 4 maverick在硬提示（hard prompt）、編程、數學、創意寫作、長查詢和多輪對話中，並列第一。

僅在樣式控制下，排名第五。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

而且，1000萬上下文llama 4 scout還擊敗了openai的模型。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

每個人還可以在whatsapp、messenger、instagram direct和網頁上體驗基於llama 4的應用。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

首次採用moe，單個h100即可跑

llama團隊設計了兩款高效的llama 4系列模型，只要單個h100 gpu就能運行：

一個是llama 4 scout（擁有170億個活躍參數和16個專家），使用int4量化可以在單個h100 gpu上運行；

另一個是llama 4 maverick（擁有170億個活躍參數和128個專家），可以在單個h100主機上運行。

目前，正在訓練的教師模型——llama 4 behemoth，它在stem基準測試（如math-500和gpqa diamond）中，性能優於gpt-4.5、claude sonnet 3.7、gemini 2.0 pro。

在最新博文中，meta分享了更多的關於llama 4家族訓練的技術細節。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

在英偉達b200上，llama 4可以每秒處理42400個token

預訓練

llama 4模型是llama系列模型中首批採用混合專家（moe）架構的模型。

在moe模型中，單獨的token只會激活全部參數中的一小部分。

與傳統的稠密模型相比，moe架構在訓練和推理時的計算效率更高，並且在相同的訓練flops預算下，能夠生成更高質量的結果。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

架構概覽，右為混合專家（moe）架構

舉個例子，llama 4 maverick模型的4000億個總參數中有170億個活躍參數。

為了提高推理效率，meta交替使用了稠密層和專家混合（moe）層。

moe層用到了128個路由專家和一個共享專家。每個token都會被送到共享專家，同時也會送到128個路由專家中的一個。

因此，雖然所有參數都存儲在內存中，但在運行這些模型時，只有部分參數會被激活。

這樣就能提升推理效率，降低模型服務的成本和延遲——

llama 4 maverick可以輕鬆部署在一台nvidia h100 dgx主機上運行，或者通過分布式推理來實現最高效率。

原生多模態設計

llama 4是一個原生多模態模型，採用了早期融合技術，能把文本和視覺token無縫整合到一個統一的模型框架里。

早期融合是個大進步，因為它可以用海量的無標籤文本、圖片和視頻數據一起來預訓練模型。

meta還升級了llama 4的視覺編碼器。這個編碼器基於metaclip，但在訓練時跟一個凍結的llama模型分開進行，這樣能更好地調整編碼器，讓它更好地適配大語言模型（llm）。

模型超參數優化

meta還開發了一種叫做metap的新訓練方法，能讓他們更靠譜地設置關鍵的模型超參數，比如每層的學習率和初始化規模。

這些精心挑選的超參數在不同的批大小、模型寬度、深度和訓練token量上都能很好地適配。

llama 4通過在200種語言上預訓練實現了對開源微調的支持，其中超過10億個token的語言有100多種，整體多語言token量比llama 3多出10倍。

高效的模型訓練，解鎖1000萬輸入上下文長度

此外，meta注重高效的模型訓練，采用了fp8精度，既不犧牲質量，又能保證模型的高flops利用率——

在使用fp8精度和32k個gpu預訓練llama 4 behemoth模型時，達到了每個gpu 390 tflops的性能。

訓練用的整體數據包含了超過30萬億個 token，比llama 3的預訓練數據量翻了一倍還多，涵蓋了文本、圖片和視頻數據集。

meta用一種叫做「中期訓練」的方式來繼續訓練模型，通過新的訓練方法，包括用專門的數據集擴展長上下文，來提升核心能力。

這不僅提高了模型的質量，還為llama 4 scout解鎖了領先的1000萬輸入上下文長度。

後訓練

最新的模型包含了不同的參數規模，滿足各種使用場景和開發者的需求。

llama 4 maverick：參數規模較大，主要用於圖像理解和創意寫作
llama 4 scout：參數規模較小，適用多種任務，支持1000萬token上下文，全球領先。

為了讓不同模型適應不同的任務，針對多模態、超大參數規模等問題，meta開發了一系列新的後訓練方法。

主力模型llama 4 maverick

作為產品的核心模型，llama 4 maverick在圖像精準理解和創意寫作方面表現突出，特別適合通用助手、聊天類應用場景。

訓練llama 4 maverick模型時，最大的挑戰是保持多種輸入模式、推理能力和對話能力之間的平衡。

後訓練流程

為了訓練llama 4，meta重新設計了後訓練流程，採用了全新的方法：

輕量級監督微調（sft）> 在線強化學習（rl）> 輕量級直接偏好優化（dpo）。

一個關鍵發現是，sft和dpo可能會過度限制模型，在在線rl階段限制了探索，導致推理、編程和數學領域的準確性不理想。

為了解決這個問題，meta使用llama模型作為評判者，移除了超過50%的被標記為「簡單」的數據，並對剩餘的更難數據進行輕量級sft。

在隨後的多模態在線rl階段，精心選擇了更難的提示，成功實現了性能的飛躍。

此外，他們還實施了持續在線rl策略，交替進行模型訓練和數據篩選，只保留中等到高難度的提示。這種策略在計算成本和準確性之間取得了很好的平衡。

最後，進行了輕量級的dpo來處理與模型響應質量相關的特殊情況，有效地在模型的智能性和對話能力之間達成了良好的平衡。

新的流程架構加上持續在線rl和自適應數據過濾，最終打造出了一個行業領先的通用聊天模型，擁有頂尖的智能和圖像理解能力。

llama 4 maverick碾壓gpt-4o和gemini 2.0

作為一款通用的llm，llama 4 maverick包含170億個活躍參數，128個專家和4000億個總參數，提供了比llama 3.3 70b更高質量、更低價格的選擇。

llama 4 maverick是同類中最佳的多模態模型，在編程、推理、多語言支持、長上下文和圖像基準測試中超過了類似的模型，如gpt-4o和gemini 2.0，甚至能與體量更大的deepseek v3.1在編碼和推理上競爭。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

通用模型llama 4 scout：1000萬token上下文

規模較小的llama 4 scout是一款通用模型，擁有170億個活躍參數、16個專家和1090億個總參數，在同類別中性能最好。

llama 4 scout 的支持上下文長度從 llama 3 的12.8萬激增到行業領先的1000萬token。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

這為多種應用打開了無限可能，包括多文檔摘要、大規模用戶活動解析以進行個性化任務，以及在龐大的代碼庫中進行推理。

llama 4 scout在預訓練和後訓練時都採用了256k的上下文長度，基礎模型具備了先進的長度泛化能力。

它在一些任務中取得了亮眼成果，比如文本檢索中的「大海撈針式檢索」和在1000萬token代碼上的累積負對數似然（nlls）。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

llama 4架構的一個關鍵創新是使用了交替注意力層，而不依賴於位置嵌入。

此外，在推理時採用了溫度縮放注意力，以增強長度泛化能力。meta將其稱為irope架構，其中「i」代表「交替」（interleaved）注意力層，突出了支持「無限」上下文長度的長期目標，而「rope」則指的是在大多數層中使用的旋轉位置嵌入（rotary position embeddings）。

視覺理解能力

兩款模型進行了大規模的圖像和視頻幀靜態圖像訓練，以賦予它們廣泛的視覺理解能力，包括對時間活動和相關圖像的理解。

它們能夠在多圖像輸入和文本提示的配合下，輕鬆進行視覺推理和理解任務。

模型預訓練時最多用了48張圖像，而在後訓練測試中，最多8張圖像也能取得不錯的效果。

llama 4 scout在圖像定位方面也是同類最佳，能夠將用戶的提示與相關的視覺概念對齊，並將模型的響應錨定到圖像中的特定區域。

這使得更精確的視覺問答成為可能，幫助llm更好地理解用戶意圖並定位感興趣的對象。

編程、推理、長上下文和圖像上，遙遙領先

llama 4 scout在編程、推理、長上下文和圖像基準測試中超過了類似的模型，並且在所有以前的llama模型中表現更強。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

秉承對開源的承諾，meta將llama 4 maverick和llama 4 scout提供給用戶下載，用戶可以在llama.com和hugging face上獲取，之後這些模型還將在最廣泛使用的雲平台、數據平台、邊緣硅片以及全球服務集成商上陸續上線。

2萬億巨獸，幹掉gpt-4.5

llama 4 behemoth是一款「教師模型」，在同級別的模型里，它的智能水平相當高超。

llama 4 behemoth同樣是一個多模態混合專家模型，擁有2880億個活躍參數、16個專家以及近2萬億個總參數。

在數學、多語言處理和圖像基準測試方面，它為非推理模型提供了最先進的性能，成為訓練較小的llama 4模型的理想選擇。

教師模型+全新蒸餾

從llama 4 behemoth中蒸餾出來llama 4 maverick，在最終任務評估指標上大幅提升了質量。

meta開發了一種新的蒸餾損失函數，在訓練過程中動態地加權軟目標和硬目標。

通過從llama 4 behemoth進行共同蒸餾，能夠在預訓練階段分攤計算資源密集型前向計算的成本，這些前向計算用於計算大多數用於學生模型訓練的數據的蒸餾目標。

對於學生訓練中包含的額外新數據，會在behemoth模型上運行前向計算，以生成蒸餾目標。

剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態巨獸搶回王座 - 天天要聞

後訓練

對一個擁有兩萬億參數的模型進行後訓練也是一個巨大的挑戰，這必須徹底改進和重新設計訓練方案，尤其是在數據規模方面。

為了最大化性能，不得不精簡95%的sft數據，相比之下，較小的模型只精簡了50%的數據，目的是確保在質量和效率上的集中關注。

meta還發現，採用輕量級的sft後接大規模rl能夠顯著提高模型的推理和編碼能力。meta的rl方案專註於通過對策略模型進行pass@k分析來採樣難度較大的提示，並設計逐漸增加提示難度的訓練課程。

在訓練過程中動態地過濾掉沒有優勢的提示，並通過從多個能力中混合提示構建訓練批次，對提升數學、推理和編碼的性能起到了關鍵作用。

最後，從多種系統指令中採樣對於確保模型保持良好的指令跟隨能力，在推理和編碼任務中表現出色也至關重要。

擴展rl訓練

對於兩萬億參數的模型，擴展rl訓練也要求重新設計底層的rl基礎設施，應對前所未有的規模。

meta優化了moe並行化的設計，提高了速度，從而加快了迭代速度。

llama團隊開發了一個完全異步的在線rl訓練框架，提升了靈活性。

與現有的分布式訓練框架相比，後者為了將所有模型都加載到內存中而犧牲了計算內存，新基礎設施能夠靈活地將不同的模型分配到不同的gpu上，根據計算速度在多個模型之間平衡資源。

這一創新使得訓練效率比之前的版本提升了約10倍。

llama 4一夜成為開源王者，甚至就連deepseek v3最新版也被拉下神壇，接下來就是坐等r2的誕生。

參考資料：

https://x.com/aiatmeta/status/1908598456144531660

https://x.com/astonzhangaz/status/1908595612372885832

https://x.com/lmarena_ai/status/1908601011989782976

科技

英特爾與台積電合資計劃遭質疑：兩家公司幾乎無法兼容 - 天天要聞

英特爾與台積電合資計劃遭質疑：兩家公司幾乎無法兼容

【TechWeb】近日，市場上一則消息引發廣泛關註：Intel（英特爾）和台積電已達成協議，計劃合資運營Intel位於美國的晶圓廠，旨在解決Intel在先進制程方面的難題。有報道稱，該合資計劃頗具吸引力，有望吸引高通、英偉達和蘋果等IC設計業者前來下單。據悉，台積電將在合資公司中持有20%的股份，而Intel期望藉助此次合作提升自...

04月07日 3980

金晨領銜AI天團！三星Galaxy S25系列震撼上市，開啟智能新紀元 - 天天要聞

金晨領銜AI天團！三星Galaxy S25系列震撼上市，開啟智能新紀元

2025年2月11日，三星電子在中國正式發布Galaxy S25系列旗艦手機，包含Galaxy S25 Ultra、S25+和S25三款機型。售價分別為9699元起、6999元起和5999元起。

04月07日 1059

美國科技巨頭Meta推出最強開源 AI 模型 Llama 4 - 天天要聞

美國科技巨頭Meta推出最強開源 AI 模型 Llama 4

【TechWeb】在 Llama 3 上市一周年這個特殊節點，美國科技巨頭 Meta 重磅發布了其迄今最強大的開源 AI 模型——Llama 4。Llama 4 系列採用了先進的混合專家架構，這種架構優勢顯著。在模型訓練以及回答用戶查詢時，它能展現出更高的效率。其原理是把模型劃分成多個專註特定任務的“專家”子模型，從而實現精準且高效的處理...

04月07日 8382

你還會買小米SU7嗎 - 天天要聞

你還會買小米SU7嗎

目前其實小米SU7的事故還在發酵，小米汽車也算是遭遇了有史以來最嚴重的信任危機，當然了到底是車的問題還是人的問題現在還沒有定論，所以車賣家也不去討論誰對誰錯，誰是誰非！

04月07日 1237

一年虧掉224億？李斌急了，說2025年要實現盈利 - 天天要聞

一年虧掉224億？李斌急了，說2025年要實現盈利

說真的，如果真是這樣，比如小鵬也實現了盈利的話，那蔚來就比較尷尬了，因為曾經在新勢力裡面，“蔚小理”是三大代表性企業。

04月07日 9005

別讓AI成為犯罪“幫凶” 網警偵破一起非法獲取計算機信息系統數據案 - 天天要聞

別讓AI成為犯罪“幫凶” 網警偵破一起非法獲取計算機信息系統數據案

當你在用AI代碼寫論文用算法優化實驗時可曾想過這項技術若被惡意利用會成為刺向他人隱私的 “數字利刃”？在互聯網高度普及的當下，大....

04月07日 1685

海納百川一路“長”紅：中國汽車出海的創新樣本 - 天天要聞

海納百川一路“長”紅：中國汽車出海的創新樣本

3月21日的德國，當深藍S07、阿維塔07和啟源E07組成的“長安七系”亮相，表明這家來自重慶的中國車企，正在用一場科技與美學的“組合拳”，向歐洲宣告：中國汽車，來了！

04月07日 1033

國內蘋果監測丨“瘋狂”的蘋果 - 天天要聞

國內蘋果監測丨“瘋狂”的蘋果

蘋果，薔薇科蘋果屬落葉喬木植物，莖幹較高，小枝短而粗，呈圓柱形；葉片橢圓形，表面光滑，果實較大，呈扁球形，果梗短粗。花期5月，果期7~10月。蘋果原產歐洲中部、伊朗北部、俄羅斯高加索南部....

04月07日 6533

客觀評價這次小米SU7事件 - 天天要聞

客觀評價這次小米SU7事件

如果此次事故換成了燃油車，起碼大概率是不會着火的，只要不着火就有施救的可能性，但是一旦着火根本沒有任何營救的可能性。電動車因為撞擊而着火是一個無解的問題。2024年7月25日，四川成都的....

04月07日 2370

蘋果或許能夠暫時推遲產品漲價但不會持續太久 - 天天要聞

蘋果或許能夠暫時推遲產品漲價但不會持續太久

面對高額關稅，蘋果將不得不提高美國和其他地區 iPhone等熱銷產品的價格，但正試圖將漲價推遲到下一次硬件升級。一份新報告顯示，蘋果正在採取多項舉措，以減輕美國和其他國家對其旗艦產品徵收關稅帶來的成本上漲。

04月07日 1823