剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座

2025年04月06日09:30:26 科技 6543

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞



  新智元報道  

編輯:編輯部 jny
【新智元導讀】生多模態llama 4終於問世,開源王座一夜易主!首批共有兩款模型scout和maverick,前者業界首款支持1000萬上下文單h100可跑,後者更是一舉擊敗了deepseek v3。目前,2萬億參數巨獸還在訓練中。

一大早,llama 4重磅發布了!

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

meta官宣開源首個原生多模態llama 4,首次採用的moe架構,支持12種語言,首批發布一共兩款:

llama 4 scout:共有1090億參數,17b活躍參數,16個專家,1000萬上下

llama 4 maverick:共有4000億參數,17b活躍參數,128個專家,100萬上下文

另外,2萬億參數llama 4 behemoth將在未來幾個月面世,288b活躍參數,16個專家。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

llama 4的橫空出世,成為迄今為止開源最強,多模態能力最好的模型之一。

在大模型lmsys排行榜上,llama 4 maverick衝上第二( elo得分1417),僅次於閉源gemini 2.5 pro。

更值得一提的是,僅用一半參數,maverick推理編碼能力與deepseek-v3-0324實力相當。

llama 4 scout最大亮點在於支持1000萬上下文,相當於可以處理20+小時的視頻,僅在單個h100 gpu(int4 量化後)上就能跑。

在基準測試中,性能超越gemma 3、gemini 2.0 flash-lite、mistral 3.1。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

即將面世的llama 4 behemoth(仍在訓練中),是maverick協同蒸餾的教師模型,使用30t多模態token在32k個gpu上進行預訓練(fp8)。

目前在stem基準測試中,超越了gpt-4.5、claude sonnet 3.7、gemini 2.0 pro。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

小扎激動地在官宣視頻中稱,「今天是llama 4日」!

llama 4開源後,deepseek r2還遠嗎?

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

此前報道稱,deepseek r2最晚在5發布,看來可能要提前了...

史上最強llama 4開源,超越deepseek v3

llama 4模型開源,標誌着llama生態系統進入了一個新紀元。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

即日起,所有開發者可以在llama.com和hugging face下載這兩款最新的模型

在大模型排行榜中,llama 4 maverick在硬提示(hard prompt)、編程、數學、創意寫作、長查詢和多輪對話中,並列第一。

僅在樣式控制下,排名第五。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

而且,1000萬上下文llama 4 scout還擊敗了openai的模型。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

每個人還可以在whatsapp、messenger、instagram direct和網頁上體驗基於llama 4的應用。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

首次採用moe,單個h100即可跑

llama團隊設計了兩款高效的llama 4系列模型,只要單個h100 gpu就能運行:

一個是llama 4 scout(擁有170億個活躍參數和16個專家),使用int4量化可以在單個h100 gpu上運行

另一個是llama 4 maverick(擁有170億個活躍參數和128個專家),可以在單個h100主機上運行

目前,正在訓練的教師模型——llama 4 behemoth,它在stem基準測試(如math-500和gpqa diamond)中,性能優於gpt-4.5、claude sonnet 3.7、gemini 2.0 pro。

在最新博文中,meta分享了更多的關於llama 4家族訓練的技術細節。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

在英偉達b200上,llama 4可以每秒處理42400個token

預訓練

llama 4模型是llama系列模型中首批採用混合專家(moe)架構的模型。

在moe模型中,單獨的token只會激活全部參數中的一小部分。

與傳統的稠密模型相比,moe架構在訓練和推理時的計算效率更高,並且在相同的訓練flops預算下,能夠生成更高質量的結果。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

架構概覽,右為混合專家(moe)架構

舉個例子,llama 4 maverick模型的4000億個總參數中有170億個活躍參數。

為了提高推理效率,meta交替使用了稠密層和專家混合(moe)層。

moe層用到了128個路由專家和一個共享專家。每個token都會被送到共享專家,同時也會送到128個路由專家中的一個。

因此,雖然所有參數都存儲在內存中,但在運行這些模型時,只有部分參數會被激活。

這樣就能提升推理效率,降低模型服務的成本和延遲——

llama 4 maverick可以輕鬆部署在一台nvidia h100 dgx主機上運行,或者通過分布式推理來實現最高效率。

原生多模態設計

llama 4是一個原生多模態模型,採用了早期融合技術,能把文本和視覺token無縫整合到一個統一的模型框架里。

早期融合是個大進步,因為它可以用海量的無標籤文本、圖片和視頻數據一起來預訓練模型。

meta還升級了llama 4的視覺編碼器。這個編碼器基於metaclip,但在訓練時跟一個凍結的llama模型分開進行,這樣能更好地調整編碼器,讓它更好地適配大語言模型(llm)。

模型超參數優化

meta還開發了一種叫做metap的新訓練方法,能讓他們更靠譜地設置關鍵的模型超參數,比如每層的學習率和初始化規模。

這些精心挑選的超參數在不同的批大小、模型寬度、深度和訓練token量上都能很好地適配。

llama 4通過在200種語言上預訓練實現了對開源微調的支持,其中超過10億個token的語言有100多種,整體多語言token量比llama 3多出10倍。

高效的模型訓練,解鎖1000萬輸入上下文長度

此外,meta注重高效的模型訓練,fp8精度,既不犧牲質量,又能保證模型的高flops利用率——

在使用fp8精度和32k個gpu預訓練llama 4 behemoth模型時,達到了每個gpu 390 tflops的性能。

訓練用的整體數據包含了超過30萬億個 token,比llama 3的預訓練數據量翻了一倍還多,涵蓋了文本、圖片和視頻數據集。

meta用一種叫做「中期訓練」的方式來繼續訓練模型,通過新的訓練方法,包括用專門的數據集擴展長上下文,來提升核心能力。

這不僅提高了模型的質量,還為llama 4 scout解鎖了領先的1000萬輸入上下文長度。

後訓練

最新的模型包含了不同的參數規模,滿足各種使用場景和開發者的需求。

  • llama 4 maverick:參數規模較大,主要用於圖像理解和創意寫作

  • llama 4 scout:參數規模較小,適用多種任務,支持1000萬token上下文,全球領先

為了讓不同模型適應不同的任務,針對多模態、超大參數規模等問題,meta開發了一系列新的後訓練方法。

主力模型llama 4 maverick

作為產品的核心模型,llama 4 maverick在圖像精準理解和創意寫作方面表現突出,特別適合通用助手、聊天類應用場景。

訓練llama 4 maverick模型時,最大的挑戰是保持多種輸入模式、推理能力和對話能力之間的平衡。

後訓練流程

為了訓練llama 4,meta重新設計了後訓練流程,採用了全新的方法

輕量級監督微調(sft)> 在線強化學習(rl)> 輕量級直接偏好優化(dpo)

一個關鍵發現是,sft和dpo可能會過度限制模型,在在線rl階段限制了探索,導致推理、編程和數學領域的準確性不理想

為了解決這個問題,meta使用llama模型作為評判者,移除了超過50%的被標記為「簡單」的數據,並對剩餘的更難數據進行輕量級sft。

在隨後的多模態在線rl階段,精心選擇了更難的提示,成功實現了性能的飛躍。

此外,他們還實施了持續在線rl策略,交替進行模型訓練和數據篩選,只保留中等到高難度的提示。這種策略在計算成本和準確性之間取得了很好的平衡。

最後,進行了輕量級的dpo來處理與模型響應質量相關的特殊情況,有效地在模型的智能性和對話能力之間達成了良好的平衡。

新的流程架構加上持續在線rl和自適應數據過濾,最終打造出了一個行業領先的通用聊天模型,擁有頂尖的智能和圖像理解能力。

llama 4 maverick碾壓gpt-4o和gemini 2.0

作為一款通用的llm,llama 4 maverick包含170億個活躍參數,128個專家和4000億個總參數,提供了比llama 3.3 70b更高質量、更低價格的選擇。

llama 4 maverick是同類中最佳的多模態模型,在編程、推理、多語言支持、長上下文和圖像基準測試中超過了類似的模型,如gpt-4o和gemini 2.0,甚至能與體量更大的deepseek v3.1在編碼和推理上競爭。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

通用模型llama 4 scout:1000萬token上下文

規模較小的llama 4 scout是一款通用模型,擁有170億個活躍參數、16個專家和1090億個總參數,在同類別中性能最好。

llama 4 scout 的支持上下文長度從 llama 3 的12.8萬激增到行業領先的1000萬token。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

這為多種應用打開了無限可能,包括多文檔摘要、大規模用戶活動解析以進行個性化任務,以及在龐大的代碼庫中進行推理。

llama 4 scout在預訓練和後訓練時都採用了256k的上下文長度,基礎模型具備了先進的長度泛化能力。

它在一些任務中取得了亮眼成果,比如文本檢索中的「大海撈針式檢索」和在1000萬token代碼上的累積負對數似然(nlls)。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞
剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

llama 4架構的一個關鍵創新是使用了交替注意力層,而不依賴於位置嵌入。

此外,在推理時採用了溫度縮放注意力,以增強長度泛化能力。meta將其稱為irope架構,其中「i」代表「交替」(interleaved)注意力層,突出了支持「無限」上下文長度的長期目標,而「rope」則指的是在大多數層中使用的旋轉位置嵌入(rotary position embeddings)。

視覺理解能力

兩款模型進行了大規模的圖像和視頻幀靜態圖像訓練,以賦予它們廣泛的視覺理解能力,包括對時間活動和相關圖像的理解。

它們能夠在多圖像輸入和文本提示的配合下,輕鬆進行視覺推理和理解任務。

模型預訓練時最多用了48張圖像,而在後訓練測試中,最多8張圖像也能取得不錯的效果。

llama 4 scout在圖像定位方面也是同類最佳,能夠將用戶的提示與相關的視覺概念對齊,並將模型的響應錨定到圖像中的特定區域。

這使得更精確視覺問答成為可能,幫助llm更好地理解用戶意圖並定位感興趣的對象。

編程、推理、長上下文和圖像上,遙遙領先

llama 4 scout在編程、推理、長上下文和圖像基準測試中超過了類似的模型,並且在所有以前的llama模型中表現更強。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

秉承對開源的承諾,meta將llama 4 maverick和llama 4 scout提供給用戶下載,用戶可以在llama.com和hugging face上獲取,之後這些模型還將在最廣泛使用的雲平台、數據平台、邊緣硅片以及全球服務集成商上陸續上線。

2萬億巨獸,幹掉gpt-4.5

llama 4 behemoth是一款「教師模型」,在同級別的模型里,它的智能水平相當高超。

llama 4 behemoth同樣是一個多模態混合專家模型,擁有2880億個活躍參數、16個專家以及近2萬億個總參數

在數學、多語言處理和圖像基準測試方面,它為非推理模型提供了最先進的性能,成為訓練較小的llama 4模型的理想選擇。

教師模型+全新蒸餾

從llama 4 behemoth中蒸餾出來llama 4 maverick,在最終任務評估指標上大幅提升了質量。

meta開發了一種新的蒸餾損失函數,在訓練過程中動態地加權軟目標和硬目標。

通過從llama 4 behemoth進行共同蒸餾,能夠在預訓練階段分攤計算資源密集型前向計算的成本,這些前向計算用於計算大多數用於學生模型訓練的數據的蒸餾目標。

對於學生訓練中包含的額外新數據,會在behemoth模型上運行前向計算,以生成蒸餾目標。

剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態巨獸搶回王座 - 天天要聞

後訓練

對一個擁有兩萬億參數的模型進行後訓練也是一個巨大的挑戰,這必須徹底改進和重新設計訓練方案,尤其是在數據規模方面。

為了最大化性能,不得不精簡95%的sft數據,相比之下,較小的模型只精簡了50%的數據,目的是確保在質量和效率上的集中關注。

meta還發現,採用輕量級的sft後接大規模rl能夠顯著提高模型的推理和編碼能力。meta的rl方案專註於通過對策略模型進行pass@k分析來採樣難度較大的提示,並設計逐漸增加提示難度的訓練課程。

在訓練過程中動態地過濾掉沒有優勢的提示,並通過從多個能力中混合提示構建訓練批次,對提升數學、推理和編碼的性能起到了關鍵作用。

最後,從多種系統指令中採樣對於確保模型保持良好的指令跟隨能力,在推理和編碼任務中表現出色也至關重要。

擴展rl訓練

對於兩萬億參數的模型,擴展rl訓練也要求重新設計底層的rl基礎設施,應對前所未有的規模。

meta優化了moe並行化的設計,提高了速度,從而加快了迭代速度。

llama團隊開發了一個完全異步的在線rl訓練框架,提升了靈活性。

與現有的分布式訓練框架相比,後者為了將所有模型都加載到內存中而犧牲了計算內存,新基礎設施能夠靈活地將不同的模型分配到不同的gpu上,根據計算速度在多個模型之間平衡資源。

這一創新使得訓練效率比之前的版本提升了約10倍。

llama 4一夜成為開源王者,甚至就連deepseek v3最新版也被拉下神壇,接下來就是坐等r2的誕生。

參考資料:
https://x.com/aiatmeta/status/1908598456144531660
https://x.com/astonzhangaz/status/1908595612372885832
https://x.com/lmarena_ai/status/1908601011989782976

科技分類資訊推薦

英特爾與台積電合資計劃遭質疑:兩家公司幾乎無法兼容 - 天天要聞

英特爾與台積電合資計劃遭質疑:兩家公司幾乎無法兼容

【TechWeb】近日,市場上一則消息引發廣泛關註:Intel(英特爾)和台積電已達成協議,計劃合資運營Intel位於美國的晶圓廠,旨在解決Intel在先進制程方面的難題。有報道稱,該合資計劃頗具吸引力,有望吸引高通、英偉達和蘋果等IC設計業者前來下單。據悉,台積電將在合資公司中持有20%的股份,而Intel期望藉助此次合作提升自...
美國科技巨頭Meta推出最強開源 AI 模型 Llama 4 - 天天要聞

美國科技巨頭Meta推出最強開源 AI 模型 Llama 4

【TechWeb】在 Llama 3 上市一周年這個特殊節點,美國科技巨頭 Meta 重磅發布了其迄今最強大的開源 AI 模型——Llama 4。Llama 4 系列採用了先進的混合專家架構,這種架構優勢顯著。在模型訓練以及回答用戶查詢時,它能展現出更高的效率。其原理是把模型劃分成多個專註特定任務的“專家”子模型,從而實現精準且高效的處理...
你還會買小米SU7嗎 - 天天要聞

你還會買小米SU7嗎

目前其實小米SU7的事故還在發酵,小米汽車也算是遭遇了有史以來最嚴重的信任危機,當然了到底是車的問題還是人的問題現在還沒有定論,所以車賣家也不去討論誰對誰錯,誰是誰非!
國內蘋果監測丨“瘋狂”的蘋果 - 天天要聞

國內蘋果監測丨“瘋狂”的蘋果

蘋果,薔薇科蘋果屬落葉喬木植物,莖幹較高,小枝短而粗,呈圓柱形;葉片橢圓形,表面光滑,果實較大,呈扁球形,果梗短粗。花期5月,果期7~10月。 蘋果原產歐洲中部、伊朗北部、俄羅斯高加索南部....
客觀評價這次小米SU7事件 - 天天要聞

客觀評價這次小米SU7事件

如果此次事故換成了燃油車,起碼大概率是不會着火的,只要不着火就有施救的可能性,但是一旦着火根本沒有任何營救的可能性。 電動車因為撞擊而着火是一個無解的問題。2024年7月25日,四川成都的....
蘋果或許能夠暫時推遲產品漲價 但不會持續太久 - 天天要聞

蘋果或許能夠暫時推遲產品漲價 但不會持續太久

面對高額關稅,蘋果將不得不提高美國和其他地區 iPhone等熱銷產品的價格,但正試圖將漲價推遲到下一次硬件升級。一份新報告顯示,蘋果正在採取多項舉措,以減輕美國和其他國家對其旗艦產品徵收關稅帶來的成本上漲。