Meta 發布新一代旗艦 AI 模型 Llama 4

2025年04月06日05:02:04 科技 1257

Meta於周六發布了其 Llama 家族的全新 AI 模型系列Llama 4。總共有四種新模型：Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。Meta 表示，所有模型都經過“大量未標記的文本、圖像和視頻數據”的訓練，從而獲得“廣泛的視覺理解”。

中國DeepSeek的開放模型取得了成功，其性能與 Meta 之前的旗艦 Llama 模型相當甚至更好，這推動了 Llama 的加速開發。據說 Meta 已經組建了作戰室來解密 DeepSeek 如何降低運行和部署R1和V3等模型的成本。

Scout 和 Maverick 已在Llama.com和 Meta 的合作夥伴處公開提供，包括 AI 開發平台 Hugging Face，而 Behemoth 仍在訓練中。Meta 表示，其跨 WhatsApp、Messenger 和 Instagram 等應用的 AI 助手 Meta AI 已更新，可在 40 個國家/地區使用 Llama 4。目前，多模式功能僅限於美國英語版本。

一些開發人員可能對 Llama 4 許可證提出異議。

禁止在歐盟“註冊”或“主要營業地點”為歐盟的用戶和公司使用或分發這些模型，這可能是該地區人工智能和數據隱私法規定的治理要求的結果。（過去，Meta 曾譴責這些法律過於繁瑣。）此外，與之前的 Llama 版本一樣，每月活躍用戶超過 7 億的公司必須向 Meta 申請特殊許可，Meta 可自行決定授予或拒絕該許可。

Meta在一篇博文中寫道： “這些 Llama 4 模型標誌着 Llama 生態系統新時代的開始。這只是 Llama 4 系列的開始。”

Meta 表示，Llama 4 是其第一批使用混合專家 (MoE) 架構的模型，該架構在訓練和回答查詢方面具有更高的計算效率。MoE 架構基本上將數據處理任務分解為子任務，然後將其委託給較小的、專門的“專家”模型。

例如，Maverick 總共擁有 4000 億個參數，但在 128 位“專家”中只有 170 億個活躍參數。（參數大致對應於模型的解決問題的能力。）Scout 擁有 170 億個活躍參數、16 位專家和 1090 億個總參數。

根據 Meta 的內部測試，Maverick 在某些編碼、推理、多語言、長上下文和圖像基準上超過了 OpenAI 的GPT-4o和Google的Gemini 2.0等模型，該公司稱 Maverick最適合創意寫作等“一般助理和聊天”用例。然而，Maverick 還不如Google的Gemini 2.5 Pro、Anthropic 的Claude 3.7 Sonnet和 OpenAI 的GPT-4.5等功能更強大的近期模型。

Scout 的優勢在於文檔摘要和大型代碼庫推理等任務。它的獨特之處在於擁有非常大的上下文窗口：1000 萬個標記。（“標記”代表原始文本的片段 — 例如，“fantastic” 一詞可拆分為“fan”、“tas”和“tic”。）用簡單的英語來說，Scout 可以接收圖像和多達數百萬個單詞，從而能夠處理和處理非常長的文檔。

據 Meta 稱，Scout 可以在單個 NVIDIA H100 GPU 上運行，而 Maverick 則需要 NVIDIA H100 DGX 系統。

Meta 尚未發布的 Behemoth 將需要更強大的硬件。據該公司稱，Behemoth 擁有 2880 億個活躍參數、16 位專家和近 2 萬億個總參數。Meta 的內部基準測試顯示，在多項衡量 STEM 技能（如數學問題解決能力）的評估中，Behemoth 的表現優於 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro（但不是 2.5 Pro）。

值得注意的是，Llama 4 模型中沒有一個是像 OpenAI 的o1和o3-mini那樣的真正的“推理”模型。推理模型會核實其答案，並且通常能更可靠地回答問題，但因此比傳統的“非推理”模型需要更長的時間來給出答案。