Meta发布Llama 4系列AI模型,引入“混合专家架构”提升效率

2025年04月06日05:43:03 科技 1782

IT之家 4 月 6 日消息,Meta 现已发布旗下最新 Llama 4 系列 AI 模型,包含 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth,Meta 透露相应模型都经过了“大量未标注的文本、图像和视频数据”的训练,以使它们具备“广泛的视觉理解能力”

Meta发布Llama 4系列AI模型,引入“混合专家架构”提升效率 - 天天要闻

目前,Meta 已将系列模型中的 Scout 和 Maverick 上架到 Hugging Face(点此访问),而 Behemoth 模型则还在训练中。其中 Scout 可以在单个英伟达 H100 GPU 上运行,而 Maverick 则需要英伟达 H100 DGX AI 平台或“同等性能的设备”。

Meta 表示,Llama 4 系列模型是该公司旗下首批采用混合专家(MoE)架构的模型,这种架构在训练和回答用户查询时的效率更高,所谓“混合专家架构”基本上是将数据处理任务分解为子任务,然后将它们委派给更小的、专门的“专家”模型。

Meta发布Llama 4系列AI模型,引入“混合专家架构”提升效率 - 天天要闻

例如,Maverick 总共有 4000 亿个参数,但在 128 个“专家”模型中只有 170 亿个活跃参数(参数数量大致与模型的问题解决能力相对应)。Scout 有 170 亿个活跃参数、16 个“专家”模型以及总计 1090 亿个参数。

Meta发布Llama 4系列AI模型,引入“混合专家架构”提升效率 - 天天要闻

不过值得注意的是,Llama 4 系列中没有一个模型是像 OpenAI 的 o1 和 o3-mini 那样真正意义上的“推理模型”。作为比较,“推理模型”会对其答案进行事实核查,并且通常能更可靠地回答问题,但因此也比传统的“非推理”模型花费更长的时间来给出答案。

Meta 内部测试显示,Maverick 模型最适合用于“通用 AI 助手和聊天”等应用场景,该模型在创意写作、代码生成、翻译、推理、长文本上下文总结和图像基准测试中表现超过了 OpenAI 的 GPT-4o 和谷歌Gemini 2.0 等模型。然而 Maverick 与谷歌的 Gemini 2.5 Pro、Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 GPT-4.5 等功能更强大的最新模型相比仍有一定进步空间。

Meta发布Llama 4系列AI模型,引入“混合专家架构”提升效率 - 天天要闻

而 Scout 的优势则是总结文档、基于大型代码库进行推理。该模型支持 1000 万个词元(“词元”代表原始文本的片段,例如单词“fantastic”可拆分为“fan”、“tas”和“tic”),因此一次可以处理“多达数百万字的文本”。

IT之家注意到,Meta 还进一步预告了其 Behemoth 模型,据该公司称,Behemoth 有 2880 亿个活跃参数、16 个“专家”模型,总参数数量接近 2 万亿个。Meta 的内部基准测试显示,在一些衡量解决数学问题等科学、技术、工程和数学(STEM)技能的评估中,Behemoth 的表现优于 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro,但不如 Gemini 2.5 Pro。

科技分类资讯推荐

芯片“教父”张忠谋:56岁创台积电,70岁娶女秘书 - 天天要闻

芯片“教父”张忠谋:56岁创台积电,70岁娶女秘书

张忠谋是全球半导体行业的传奇人物,56岁创业,70岁迎娶女秘书,晚年却因争议言论和商业抉择频频登上头条。他一手缔造了台积电——全球芯片代工领域的霸主,但也因“技术空心化”质疑和婚姻风波饱受争议。他是张忠谋,一个在战乱中成长、在美国崛起、在台
喊出“生死存亡”!三星能渡过中年危机吗? - 天天要闻

喊出“生死存亡”!三星能渡过中年危机吗?

有人扒出旧账称,当年小米某高管因供应链问题得罪三星,三星直接断了小米的货。如今风水轮流转,终于换到李在镕主动登门拜访了,甚至还有网友夸张地声称:“李在镕终于要给雷军赔笑脸了。”
我国的低价苹果正在大量出口,为什么低价苹果更受外国人欢迎? - 天天要闻

我国的低价苹果正在大量出口,为什么低价苹果更受外国人欢迎?

在众多的进口水果中,苹果是其中之一。进口苹果虽然在大多数时候“不显山不露水”,但其实价格一点也不低。如今我国水果市场上的进口苹果主要是新西兰苹果、南非苹果等。而我国进口的新西兰苹果在苹果价格上几乎是“天花板级别”的。一斤苹果有时候能卖到大几
美媒:苹果手机价格或飙升 - 天天要闻

美媒:苹果手机价格或飙升

根据彭博社的报道,目前苹果公司90%的手机在中国组装,这意味着,苹果公司将不得不面临一个艰难的选择:是自行消化关税成本,还是将其转嫁给消费者。
“关税战”会怎么影响浪潮信息? - 天天要闻

“关税战”会怎么影响浪潮信息?

4月初,全球范围内发生了两件具有重大影响的事件。其一,美国的“对等”关税政策正式落地实施;其二,中国宣布对原产于美国的所有进口商品加征34%的关税。本文将聚焦于这场“关税战”,深入剖析其对英伟达H20等芯片价格的影响,以及由此给浪潮信息等A