
新智元報道
新智元報道
【新智元導讀】原生多模態llama 4終於問世,開源王座一夜易主!首批共有兩款模型scout和maverick,前者業界首款支持1000萬上下文單h100可跑,後者更是一舉擊敗了deepseek v3。目前,2萬億參數巨獸還在訓練中。
一大早,llama 4重磅發佈了!

meta官宣開源首個原生多模態llama 4,首次採用的moe架構,支持12種語言,首批發佈一共兩款:
llama 4 scout:共有1090億參數,17b活躍參數,16個專家,1000萬上下
llama 4 maverick:共有4000億參數,17b活躍參數,128個專家,100萬上下文
另外,2萬億參數llama 4 behemoth將在未來幾個月面世,288b活躍參數,16個專家。

llama 4的橫空出世,成為迄今為止開源最強,多模態能力最好的模型之一。
在大模型lmsys排行榜上,llama 4 maverick衝上第二( elo得分1417),僅次於閉源gemini 2.5 pro。
更值得一提的是,僅用一半參數,maverick推理編碼能力與deepseek-v3-0324實力相當。
llama 4 scout最大亮點在於支持1000萬上下文,相當於可以處理20+小時的視頻,僅在單個h100 gpu(int4 量化後)上就能跑。
在基準測試中,性能超越gemma 3、gemini 2.0 flash-lite、mistral 3.1。

即將面世的llama 4 behemoth(仍在訓練中),是maverick協同蒸餾的教師模型,使用30t多模態token在32k個gpu上進行預訓練(fp8)。
目前在stem基準測試中,超越了gpt-4.5、claude sonnet 3.7、gemini 2.0 pro。

小扎激動地在官宣視頻中稱,「今天是llama 4日」!
llama 4開源後,deepseek r2還遠嗎?

此前報道稱,deepseek r2最晚在5發佈,看來可能要提前了...
史上最強llama 4開源,超越deepseek v3
llama 4模型開源,標誌着llama生態系統進入了一個新紀元。

即日起,所有開發者可以在llama.com和hugging face下載這兩款最新的模型
在大模型排行榜中,llama 4 maverick在硬提示(hard prompt)、編程、數學、創意寫作、長查詢和多輪對話中,並列第一。
僅在樣式控制下,排名第五。

而且,1000萬上下文llama 4 scout還擊敗了openai的模型。

每個人還可以在whatsapp、messenger、instagram direct和網頁上體驗基於llama 4的應用。

首次採用moe,單個h100即可跑
llama團隊設計了兩款高效的llama 4系列模型,只要單個h100 gpu就能運行:
一個是llama 4 scout(擁有170億個活躍參數和16個專家),使用int4量化可以在單個h100 gpu上運行;
另一個是llama 4 maverick(擁有170億個活躍參數和128個專家),可以在單個h100主機上運行。
目前,正在訓練的教師模型——llama 4 behemoth,它在stem基準測試(如math-500和gpqa diamond)中,性能優於gpt-4.5、claude sonnet 3.7、gemini 2.0 pro。
在最新博文中,meta分享了更多的關於llama 4家族訓練的技術細節。

在英偉達b200上,llama 4可以每秒處理42400個token
預訓練
llama 4模型是llama系列模型中首批採用混合專家(moe)架構的模型。
在moe模型中,單獨的token只會激活全部參數中的一小部分。
與傳統的稠密模型相比,moe架構在訓練和推理時的計算效率更高,並且在相同的訓練flops預算下,能夠生成更高質量的結果。

架構概覽,右為混合專家(moe)架構
舉個例子,llama 4 maverick模型的4000億個總參數中有170億個活躍參數。
為了提高推理效率,meta交替使用了稠密層和專家混合(moe)層。
moe層用到了128個路由專家和一個共享專家。每個token都會被送到共享專家,同時也會送到128個路由專家中的一個。
因此,雖然所有參數都存儲在內存中,但在運行這些模型時,只有部分參數會被激活。
這樣就能提升推理效率,降低模型服務的成本和延遲——
llama 4 maverick可以輕鬆部署在一台nvidia h100 dgx主機上運行,或者通過分佈式推理來實現最高效率。
原生多模態設計
llama 4是一個原生多模態模型,採用了早期融合技術,能把文本和視覺token無縫整合到一個統一的模型框架里。
早期融合是個大進步,因為它可以用海量的無標籤文本、圖片和視頻數據一起來預訓練模型。
meta還升級了llama 4的視覺編碼器。這個編碼器基於metaclip,但在訓練時跟一個凍結的llama模型分開進行,這樣能更好地調整編碼器,讓它更好地適配大語言模型(llm)。
模型超參數優化
meta還開發了一種叫做metap的新訓練方法,能讓他們更靠譜地設置關鍵的模型超參數,比如每層的學習率和初始化規模。
這些精心挑選的超參數在不同的批大小、模型寬度、深度和訓練token量上都能很好地適配。
llama 4通過在200種語言上預訓練實現了對開源微調的支持,其中超過10億個token的語言有100多種,整體多語言token量比llama 3多出10倍。
高效的模型訓練,解鎖1000萬輸入上下文長度
此外,meta注重高效的模型訓練,采用了fp8精度,既不犧牲質量,又能保證模型的高flops利用率——
在使用fp8精度和32k個gpu預訓練llama 4 behemoth模型時,達到了每個gpu 390 tflops的性能。
訓練用的整體數據包含了超過30萬億個 token,比llama 3的預訓練數據量翻了一倍還多,涵蓋了文本、圖片和視頻數據集。
meta用一種叫做「中期訓練」的方式來繼續訓練模型,通過新的訓練方法,包括用專門的數據集擴展長上下文,來提升核心能力。
這不僅提高了模型的質量,還為llama 4 scout解鎖了領先的1000萬輸入上下文長度。
後訓練
最新的模型包含了不同的參數規模,滿足各種使用場景和開發者的需求。
llama 4 maverick:參數規模較大,主要用於圖像理解和創意寫作
llama 4 scout:參數規模較小,適用多種任務,支持1000萬token上下文,全球領先。
為了讓不同模型適應不同的任務,針對多模態、超大參數規模等問題,meta開發了一系列新的後訓練方法。
主力模型llama 4 maverick
作為產品的核心模型,llama 4 maverick在圖像精準理解和創意寫作方面表現突出,特別適合通用助手、聊天類應用場景。
訓練llama 4 maverick模型時,最大的挑戰是保持多種輸入模式、推理能力和對話能力之間的平衡。
後訓練流程
為了訓練llama 4,meta重新設計了後訓練流程,採用了全新的方法:
輕量級監督微調(sft)> 在線強化學習(rl)> 輕量級直接偏好優化(dpo)。
一個關鍵發現是,sft和dpo可能會過度限制模型,在在線rl階段限制了探索,導致推理、編程和數學領域的準確性不理想。
為了解決這個問題,meta使用llama模型作為評判者,移除了超過50%的被標記為「簡單」的數據,並對剩餘的更難數據進行輕量級sft。
在隨後的多模態在線rl階段,精心選擇了更難的提示,成功實現了性能的飛躍。
此外,他們還實施了持續在線rl策略,交替進行模型訓練和數據篩選,只保留中等到高難度的提示。這種策略在計算成本和準確性之間取得了很好的平衡。
最後,進行了輕量級的dpo來處理與模型響應質量相關的特殊情況,有效地在模型的智能性和對話能力之間達成了良好的平衡。
新的流程架構加上持續在線rl和自適應數據過濾,最終打造出了一個行業領先的通用聊天模型,擁有頂尖的智能和圖像理解能力。
llama 4 maverick碾壓gpt-4o和gemini 2.0
作為一款通用的llm,llama 4 maverick包含170億個活躍參數,128個專家和4000億個總參數,提供了比llama 3.3 70b更高質量、更低價格的選擇。
llama 4 maverick是同類中最佳的多模態模型,在編程、推理、多語言支持、長上下文和圖像基準測試中超過了類似的模型,如gpt-4o和gemini 2.0,甚至能與體量更大的deepseek v3.1在編碼和推理上競爭。

通用模型llama 4 scout:1000萬token上下文
規模較小的llama 4 scout是一款通用模型,擁有170億個活躍參數、16個專家和1090億個總參數,在同類別中性能最好。
llama 4 scout 的支持上下文長度從 llama 3 的12.8萬激增到行業領先的1000萬token。

這為多種應用打開了無限可能,包括多文檔摘要、大規模用戶活動解析以進行個性化任務,以及在龐大的代碼庫中進行推理。
llama 4 scout在預訓練和後訓練時都採用了256k的上下文長度,基礎模型具備了先進的長度泛化能力。
它在一些任務中取得了亮眼成果,比如文本檢索中的「大海撈針式檢索」和在1000萬token代碼上的累積負對數似然(nlls)。


llama 4架構的一個關鍵創新是使用了交替注意力層,而不依賴於位置嵌入。
此外,在推理時採用了溫度縮放注意力,以增強長度泛化能力。meta將其稱為irope架構,其中「i」代表「交替」(interleaved)注意力層,突出了支持「無限」上下文長度的長期目標,而「rope」則指的是在大多數層中使用的旋轉位置嵌入(rotary position embeddings)。
視覺理解能力
兩款模型進行了大規模的圖像和視頻幀靜態圖像訓練,以賦予它們廣泛的視覺理解能力,包括對時間活動和相關圖像的理解。
它們能夠在多圖像輸入和文本提示的配合下,輕鬆進行視覺推理和理解任務。
模型預訓練時最多用了48張圖像,而在後訓練測試中,最多8張圖像也能取得不錯的效果。
llama 4 scout在圖像定位方面也是同類最佳,能夠將用戶的提示與相關的視覺概念對齊,並將模型的響應錨定到圖像中的特定區域。
這使得更精確的視覺問答成為可能,幫助llm更好地理解用戶意圖並定位感興趣的對象。
編程、推理、長上下文和圖像上,遙遙領先
llama 4 scout在編程、推理、長上下文和圖像基準測試中超過了類似的模型,並且在所有以前的llama模型中表現更強。

秉承對開源的承諾,meta將llama 4 maverick和llama 4 scout提供給用戶下載,用戶可以在llama.com和hugging face上獲取,之後這些模型還將在最廣泛使用的雲平台、數據平台、邊緣硅片以及全球服務集成商上陸續上線。
2萬億巨獸,幹掉gpt-4.5
llama 4 behemoth是一款「教師模型」,在同級別的模型里,它的智能水平相當高超。
llama 4 behemoth同樣是一個多模態混合專家模型,擁有2880億個活躍參數、16個專家以及近2萬億個總參數。
在數學、多語言處理和圖像基準測試方面,它為非推理模型提供了最先進的性能,成為訓練較小的llama 4模型的理想選擇。
教師模型+全新蒸餾
從llama 4 behemoth中蒸餾出來llama 4 maverick,在最終任務評估指標上大幅提升了質量。
meta開發了一種新的蒸餾損失函數,在訓練過程中動態地加權軟目標和硬目標。
通過從llama 4 behemoth進行共同蒸餾,能夠在預訓練階段分攤計算資源密集型前向計算的成本,這些前向計算用於計算大多數用於學生模型訓練的數據的蒸餾目標。
對於學生訓練中包含的額外新數據,會在behemoth模型上運行前向計算,以生成蒸餾目標。

後訓練
對一個擁有兩萬億參數的模型進行後訓練也是一個巨大的挑戰,這必須徹底改進和重新設計訓練方案,尤其是在數據規模方面。
為了最大化性能,不得不精簡95%的sft數據,相比之下,較小的模型只精簡了50%的數據,目的是確保在質量和效率上的集中關注。
meta還發現,採用輕量級的sft後接大規模rl能夠顯著提高模型的推理和編碼能力。meta的rl方案專註於通過對策略模型進行pass@k分析來採樣難度較大的提示,並設計逐漸增加提示難度的訓練課程。
在訓練過程中動態地過濾掉沒有優勢的提示,並通過從多個能力中混合提示構建訓練批次,對提升數學、推理和編碼的性能起到了關鍵作用。
最後,從多種系統指令中採樣對於確保模型保持良好的指令跟隨能力,在推理和編碼任務中表現出色也至關重要。
擴展rl訓練
對於兩萬億參數的模型,擴展rl訓練也要求重新設計底層的rl基礎設施,應對前所未有的規模。
meta優化了moe並行化的設計,提高了速度,從而加快了迭代速度。
llama團隊開發了一個完全異步的在線rl訓練框架,提升了靈活性。
與現有的分佈式訓練框架相比,後者為了將所有模型都加載到內存中而犧牲了計算內存,新基礎設施能夠靈活地將不同的模型分配到不同的gpu上,根據計算速度在多個模型之間平衡資源。
這一創新使得訓練效率比之前的版本提升了約10倍。
llama 4一夜成為開源王者,甚至就連deepseek v3最新版也被拉下神壇,接下來就是坐等r2的誕生。