刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座

2025年04月06日09:30:26 科技 6543

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻



  新智元报道  

编辑:编辑部 jny
【新智元导读】生多模态llama 4终于问世,开源王座一夜易主!首批共有两款模型scout和maverick,前者业界首款支持1000万上下文单h100可跑,后者更是一举击败了deepseek v3。目前,2万亿参数巨兽还在训练中。

一大早,llama 4重磅发布了!

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

meta官宣开源首个原生多模态llama 4,首次采用的moe架构,支持12种语言,首批发布一共两款:

llama 4 scout:共有1090亿参数,17b活跃参数,16个专家,1000万上下

llama 4 maverick:共有4000亿参数,17b活跃参数,128个专家,100万上下文

另外,2万亿参数llama 4 behemoth将在未来几个月面世,288b活跃参数,16个专家。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

llama 4的横空出世,成为迄今为止开源最强,多模态能力最好的模型之一。

在大模型lmsys排行榜上,llama 4 maverick冲上第二( elo得分1417),仅次于闭源gemini 2.5 pro。

更值得一提的是,仅用一半参数,maverick推理编码能力与deepseek-v3-0324实力相当。

llama 4 scout最大亮点在于支持1000万上下文,相当于可以处理20+小时的视频,仅在单个h100 gpu(int4 量化后)上就能跑。

在基准测试中,性能超越gemma 3、gemini 2.0 flash-lite、mistral 3.1。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

即将面世的llama 4 behemoth(仍在训练中),是maverick协同蒸馏的教师模型,使用30t多模态token在32k个gpu上进行预训练(fp8)。

目前在stem基准测试中,超越了gpt-4.5、claude sonnet 3.7、gemini 2.0 pro。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

小扎激动地在官宣视频中称,「今天是llama 4日」!

llama 4开源后,deepseek r2还远吗?

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

此前报道称,deepseek r2最晚在5发布,看来可能要提前了...

史上最强llama 4开源,超越deepseek v3

llama 4模型开源,标志着llama生态系统进入了一个新纪元。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

即日起,所有开发者可以在llama.com和hugging face下载这两款最新的模型

在大模型排行榜中,llama 4 maverick在硬提示(hard prompt)、编程、数学、创意写作、长查询和多轮对话中,并列第一。

仅在样式控制下,排名第五。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

而且,1000万上下文llama 4 scout还击败了openai的模型。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

每个人还可以在whatsapp、messenger、instagram direct和网页上体验基于llama 4的应用。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

首次采用moe,单个h100即可跑

llama团队设计了两款高效的llama 4系列模型,只要单个h100 gpu就能运行:

一个是llama 4 scout(拥有170亿个活跃参数和16个专家),使用int4量化可以在单个h100 gpu上运行

另一个是llama 4 maverick(拥有170亿个活跃参数和128个专家),可以在单个h100主机上运行

目前,正在训练的教师模型——llama 4 behemoth,它在stem基准测试(如math-500和gpqa diamond)中,性能优于gpt-4.5、claude sonnet 3.7、gemini 2.0 pro。

在最新博文中,meta分享了更多的关于llama 4家族训练的技术细节。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

在英伟达b200上,llama 4可以每秒处理42400个token

预训练

llama 4模型是llama系列模型中首批采用混合专家(moe)架构的模型。

在moe模型中,单独的token只会激活全部参数中的一小部分。

与传统的稠密模型相比,moe架构在训练和推理时的计算效率更高,并且在相同的训练flops预算下,能够生成更高质量的结果。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

架构概览,右为混合专家(moe)架构

举个例子,llama 4 maverick模型的4000亿个总参数中有170亿个活跃参数。

为了提高推理效率,meta交替使用了稠密层和专家混合(moe)层。

moe层用到了128个路由专家和一个共享专家。每个token都会被送到共享专家,同时也会送到128个路由专家中的一个。

因此,虽然所有参数都存储在内存中,但在运行这些模型时,只有部分参数会被激活。

这样就能提升推理效率,降低模型服务的成本和延迟——

llama 4 maverick可以轻松部署在一台nvidia h100 dgx主机上运行,或者通过分布式推理来实现最高效率。

原生多模态设计

llama 4是一个原生多模态模型,采用了早期融合技术,能把文本和视觉token无缝整合到一个统一的模型框架里。

早期融合是个大进步,因为它可以用海量的无标签文本、图片和视频数据一起来预训练模型。

meta还升级了llama 4的视觉编码器。这个编码器基于metaclip,但在训练时跟一个冻结的llama模型分开进行,这样能更好地调整编码器,让它更好地适配大语言模型(llm)。

模型超参数优化

meta还开发了一种叫做metap的新训练方法,能让他们更靠谱地设置关键的模型超参数,比如每层的学习率和初始化规模。

这些精心挑选的超参数在不同的批大小、模型宽度、深度和训练token量上都能很好地适配。

llama 4通过在200种语言上预训练实现了对开源微调的支持,其中超过10亿个token的语言有100多种,整体多语言token量比llama 3多出10倍。

高效的模型训练,解锁1000万输入上下文长度

此外,meta注重高效的模型训练,fp8精度,既不牺牲质量,又能保证模型的高flops利用率——

在使用fp8精度和32k个gpu预训练llama 4 behemoth模型时,达到了每个gpu 390 tflops的性能。

训练用的整体数据包含了超过30万亿个 token,比llama 3的预训练数据量翻了一倍还多,涵盖了文本、图片和视频数据集。

meta用一种叫做「中期训练」的方式来继续训练模型,通过新的训练方法,包括用专门的数据集扩展长上下文,来提升核心能力。

这不仅提高了模型的质量,还为llama 4 scout解锁了领先的1000万输入上下文长度。

后训练

最新的模型包含了不同的参数规模,满足各种使用场景和开发者的需求。

  • llama 4 maverick:参数规模较大,主要用于图像理解和创意写作

  • llama 4 scout:参数规模较小,适用多种任务,支持1000万token上下文,全球领先

为了让不同模型适应不同的任务,针对多模态、超大参数规模等问题,meta开发了一系列新的后训练方法。

主力模型llama 4 maverick

作为产品的核心模型,llama 4 maverick在图像精准理解和创意写作方面表现突出,特别适合通用助手、聊天类应用场景。

训练llama 4 maverick模型时,最大的挑战是保持多种输入模式、推理能力和对话能力之间的平衡。

后训练流程

为了训练llama 4,meta重新设计了后训练流程,采用了全新的方法

轻量级监督微调(sft)> 在线强化学习(rl)> 轻量级直接偏好优化(dpo)

一个关键发现是,sft和dpo可能会过度限制模型,在在线rl阶段限制了探索,导致推理、编程和数学领域的准确性不理想

为了解决这个问题,meta使用llama模型作为评判者,移除了超过50%的被标记为「简单」的数据,并对剩余的更难数据进行轻量级sft。

在随后的多模态在线rl阶段,精心选择了更难的提示,成功实现了性能的飞跃。

此外,他们还实施了持续在线rl策略,交替进行模型训练和数据筛选,只保留中等到高难度的提示。这种策略在计算成本和准确性之间取得了很好的平衡。

最后,进行了轻量级的dpo来处理与模型响应质量相关的特殊情况,有效地在模型的智能性和对话能力之间达成了良好的平衡。

新的流程架构加上持续在线rl和自适应数据过滤,最终打造出了一个行业领先的通用聊天模型,拥有顶尖的智能和图像理解能力。

llama 4 maverick碾压gpt-4o和gemini 2.0

作为一款通用的llm,llama 4 maverick包含170亿个活跃参数,128个专家和4000亿个总参数,提供了比llama 3.3 70b更高质量、更低价格的选择。

llama 4 maverick是同类中最佳的多模态模型,在编程、推理、多语言支持、长上下文和图像基准测试中超过了类似的模型,如gpt-4o和gemini 2.0,甚至能与体量更大的deepseek v3.1在编码和推理上竞争。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

通用模型llama 4 scout:1000万token上下文

规模较小的llama 4 scout是一款通用模型,拥有170亿个活跃参数、16个专家和1090亿个总参数,在同类别中性能最好。

llama 4 scout 的支持上下文长度从 llama 3 的12.8万激增到行业领先的1000万token。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

这为多种应用打开了无限可能,包括多文档摘要、大规模用户活动解析以进行个性化任务,以及在庞大的代码库中进行推理。

llama 4 scout在预训练和后训练时都采用了256k的上下文长度,基础模型具备了先进的长度泛化能力。

它在一些任务中取得了亮眼成果,比如文本检索中的「大海捞针式检索」和在1000万token代码上的累积负对数似然(nlls)。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻
刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

llama 4架构的一个关键创新是使用了交替注意力层,而不依赖于位置嵌入。

此外,在推理时采用了温度缩放注意力,以增强长度泛化能力。meta将其称为irope架构,其中「i」代表「交替」(interleaved)注意力层,突出了支持「无限」上下文长度的长期目标,而「rope」则指的是在大多数层中使用的旋转位置嵌入(rotary position embeddings)。

视觉理解能力

两款模型进行了大规模的图像和视频帧静态图像训练,以赋予它们广泛的视觉理解能力,包括对时间活动和相关图像的理解。

它们能够在多图像输入和文本提示的配合下,轻松进行视觉推理和理解任务。

模型预训练时最多用了48张图像,而在后训练测试中,最多8张图像也能取得不错的效果。

llama 4 scout在图像定位方面也是同类最佳,能够将用户的提示与相关的视觉概念对齐,并将模型的响应锚定到图像中的特定区域。

这使得更精确视觉问答成为可能,帮助llm更好地理解用户意图并定位感兴趣的对象。

编程、推理、长上下文和图像上,遥遥领先

llama 4 scout在编程、推理、长上下文和图像基准测试中超过了类似的模型,并且在所有以前的llama模型中表现更强。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

秉承对开源的承诺,meta将llama 4 maverick和llama 4 scout提供给用户下载,用户可以在llama.com和hugging face上获取,之后这些模型还将在最广泛使用的云平台、数据平台、边缘硅片以及全球服务集成商上陆续上线。

2万亿巨兽,干掉gpt-4.5

llama 4 behemoth是一款「教师模型」,在同级别的模型里,它的智能水平相当高超。

llama 4 behemoth同样是一个多模态混合专家模型,拥有2880亿个活跃参数、16个专家以及近2万亿个总参数

在数学、多语言处理和图像基准测试方面,它为非推理模型提供了最先进的性能,成为训练较小的llama 4模型的理想选择。

教师模型+全新蒸馏

从llama 4 behemoth中蒸馏出来llama 4 maverick,在最终任务评估指标上大幅提升了质量。

meta开发了一种新的蒸馏损失函数,在训练过程中动态地加权软目标和硬目标。

通过从llama 4 behemoth进行共同蒸馏,能够在预训练阶段分摊计算资源密集型前向计算的成本,这些前向计算用于计算大多数用于学生模型训练的数据的蒸馏目标。

对于学生训练中包含的额外新数据,会在behemoth模型上运行前向计算,以生成蒸馏目标。

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座 - 天天要闻

后训练

对一个拥有两万亿参数的模型进行后训练也是一个巨大的挑战,这必须彻底改进和重新设计训练方案,尤其是在数据规模方面。

为了最大化性能,不得不精简95%的sft数据,相比之下,较小的模型只精简了50%的数据,目的是确保在质量和效率上的集中关注。

meta还发现,采用轻量级的sft后接大规模rl能够显著提高模型的推理和编码能力。meta的rl方案专注于通过对策略模型进行pass@k分析来采样难度较大的提示,并设计逐渐增加提示难度的训练课程。

在训练过程中动态地过滤掉没有优势的提示,并通过从多个能力中混合提示构建训练批次,对提升数学、推理和编码的性能起到了关键作用。

最后,从多种系统指令中采样对于确保模型保持良好的指令跟随能力,在推理和编码任务中表现出色也至关重要。

扩展rl训练

对于两万亿参数的模型,扩展rl训练也要求重新设计底层的rl基础设施,应对前所未有的规模。

meta优化了moe并行化的设计,提高了速度,从而加快了迭代速度。

llama团队开发了一个完全异步的在线rl训练框架,提升了灵活性。

与现有的分布式训练框架相比,后者为了将所有模型都加载到内存中而牺牲了计算内存,新基础设施能够灵活地将不同的模型分配到不同的gpu上,根据计算速度在多个模型之间平衡资源。

这一创新使得训练效率比之前的版本提升了约10倍。

llama 4一夜成为开源王者,甚至就连deepseek v3最新版也被拉下神坛,接下来就是坐等r2的诞生。

参考资料:
https://x.com/aiatmeta/status/1908598456144531660
https://x.com/astonzhangaz/status/1908595612372885832
https://x.com/lmarena_ai/status/1908601011989782976

科技分类资讯推荐

苹果或许能够暂时推迟产品涨价 但不会持续太久 - 天天要闻

苹果或许能够暂时推迟产品涨价 但不会持续太久

面对高额关税,苹果将不得不提高美国和其他地区 iPhone等热销产品的价格,但正试图将涨价推迟到下一次硬件升级。一份新报告显示,苹果正在采取多项举措,以减轻美国和其他国家对其旗舰产品征收关税带来的成本上涨。
2025年,走暗路,耕瘦田,进窄门 - 天天要闻

2025年,走暗路,耕瘦田,进窄门

2025年,走暗路,耕瘦田,进窄门 有人在网上感叹,总觉得人生很难出头,学历不够好,家境也很普通,眼看着同学都在大厂、央企,自己却只能在小公司做个普通职员。 我问他:“你觉得这是你的问题吗?” 他愣了一下,不知道如何回答。 这让我想起一句话
SU7事故:小米受“智驾反噬”影响最小 - 天天要闻

SU7事故:小米受“智驾反噬”影响最小

俗话说“成也萧何败也萧何”,造车新势力依靠“脑残粉”烘托的市场终于要被反噬了,那些为一句“遥遥领先”而欢呼雀跃的人群,现在是不是要倒戈了?上一周车圈最热门的事件就是小米SU7的事故,身边人借此次事故问我小米汽车如何,我说非常好,至少在所有新
芯片“教父”张忠谋:56岁创台积电,70岁娶女秘书 - 天天要闻

芯片“教父”张忠谋:56岁创台积电,70岁娶女秘书

张忠谋是全球半导体行业的传奇人物,56岁创业,70岁迎娶女秘书,晚年却因争议言论和商业抉择频频登上头条。他一手缔造了台积电——全球芯片代工领域的霸主,但也因“技术空心化”质疑和婚姻风波饱受争议。他是张忠谋,一个在战乱中成长、在美国崛起、在台
喊出“生死存亡”!三星能渡过中年危机吗? - 天天要闻

喊出“生死存亡”!三星能渡过中年危机吗?

有人扒出旧账称,当年小米某高管因供应链问题得罪三星,三星直接断了小米的货。如今风水轮流转,终于换到李在镕主动登门拜访了,甚至还有网友夸张地声称:“李在镕终于要给雷军赔笑脸了。”