最强开源大模型深夜炸场！ Llama 3归来，直逼GPT-4，马斯克点赞

2024年04月22日10:55:15 科技 1310

没有出乎太多意外，Meta 带着号称「有史以来最强大的开源大模型」Llama 3 系列模型来「炸街」了。

具体来说，Meta 本次开源了 8B 和 70B 两款不同规模的模型。

Llama 3 8B：基本上与最大的 Llama 2 70B 一样强大。
Llama 3 70B: 第一档 AI 模型，媲美 Gemini 1.5 Pro、全面超越 Claude 大杯

以上还只是 Meta 的开胃小菜，真正的大餐还在后头。在未来几个月，Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型，其中超 400B 的重量级选手更是有望与 Claude 3 超大杯「掰手腕」。

Llama 3 体验地址：https://llama.meta.com/llama3/

又一 GPT-4 级模型来了，Llama 3 开卷

与前代 Llama 2 模型相比，Llama 3 可谓是迈上了一个新的台阶。

得益于预训练和后训练的改进，本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最强大的模型，同时，后训练流程的优化显著降低了模型的出错率，增强了模型的一致性，并丰富了响应的多样性。

扎克伯格曾在一次公开发言中透露，考虑到用户不会在 WhatsApp 中向 Meta AI 询问编码相关的问题，因此 Llama 2 在这一领域的优化并不突出。

而这一次，Llama 3 在推理、代码生成和遵循指令等方面的能力取得了突破性的提升，使其更加灵活和易于使用。

基准测试结果显示，Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试的得分远超 Google Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的话来说，最小的 Llama 3 基本上与最大的 Llama 2 一样强大。

Llama 3 70B 则跻身于顶尖 AI 模型的行列，整体表现全面碾压 Claude 3 大杯，与 Gemini 1.5 Pro 相比则是互有胜负。

为了准确研究基准测试下的模型性能，Meta 还特意开发了一套新的高质量人类评估数据集。

该评估集包含 1800 个提示，涵盖 12 个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。

出于避免 Llama 3 在此评估集上出现过度拟合，Meta 甚至禁止他们的研究团队访问该数据集。在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一较量中，Meta Llama 70B 都以「压倒性胜利」结束了比赛。

据 Meta 官方介绍，Llama 3 在模型架构上选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比，Llama 3 进行了几项关键的改进：

Llama 3 使用了一个具有 128K token 词汇表的 tokenizer，可以更有效地编码语言，从而显著提升模型性能。
在 8B 和 70B 模型中都采用分组查询注意力（GQA），以提高 Llama 3 模型的推理效率。
在 8192 个 token 的序列上训练模型，使用掩码来确保自注意力不会跨越文档边界。

训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。

从一开始，Meta Llama 3 就致力于成为最强大的模型。Meta 在预训练数据上投入了大量的资金。据悉，Llama 3 使用从公开来源收集的超过 15T 的 token，是 Llama 2 使用数据集的七倍，其中包含的代码数据则是 Llama 2 的四倍。

考虑到多语言的实际应用，超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成，不过，Meta 官方也坦言，与英语相比，这些语言的性能表现预计是稍逊一筹。

为了确保 Llama 3 接受最高质量的数据训练，Meta 研究团队甚至提前使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测数据质量。

值得注意的是，研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇地好，于是让 Llama 2 为 Llama 3 提供支持的文本质量分类器生成训练数据，真正实现了「AI 训练 AI」。

除了训练的质量，Llama 3 在训练效率方面也取得了质的飞跃。

Meta 透露，为了训练最大的 Llama 3 模型，他们结合了数据并行化、模型并行化和管道并行化三种类型的并行化。

在 16K GPU 上同时进行训练时，每个 GPU 可实现超过 400 TFLOPS 的计算利用率。研究团队在两个定制的 24K GPU 集群上执行了训练运行。

为了最大限度地延长 GPU 的正常运行时间，研究团队开发了一种先进的新训练堆栈，可以自动执行错误检测、处理和维护。此外，Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制，并且开发了新的可扩展存储系统，以减少检查点和回滚的开销。

这些改进使得总体有效训练时间超过 95%，也让 Llama 3 的训练效率比前代足足提高了约 3 倍。

更多技术细节欢迎查看 Meta 官方博客：https://ai.meta.com/blog/meta-llama-3/

开源 VS 闭源

作为 Meta 的「亲儿子」，Llama 3 也顺理成章地被优先整合到 AI 聊天机器人 Meta AI 之中。

追溯至去年的 Meta Connect 2023 大会，扎克伯格在会上正式宣布推出 Meta AI，随后便迅速将其推广至美国、澳大利亚、加拿大、新加坡、南非等地区。

在此前的采访中，扎克伯格对搭载 Llama 3 的 Meta AI 更是充满信心，称其将会是人们可以免费使用的最智能的 AI 助手。

我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题，它就能给出答案的形式，你可以给它更复杂的任务，它会去完成这些任务。

附上 Meta AI 网页体验地址：https://www.meta.ai/

当然，Meta AI 若是「尚未在您所在的国家/地区推出」，你可以采用开源模型最朴素的使用渠道——全球最大的 AI 开源社区网站 Hugging Face。

附上体验地址：https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct

Perplexity、Poe 等平台也迅速宣布将 Llama 3 集成到平台服务上。

你还可以通过调用开源模型平台 Replicate API 接口来体验 Llama 3，其使用的价格也已经曝光，不妨按需使用。

有趣的是，在 Meta 官宣 Llama 3 前，有眼尖的网友发现微软的 Azure 市场偷跑 Llama 3 8B Instruct 版本，但随着消息的进一步扩散，当蜂拥而至的网友再次尝试访问该链接时，得到的只有「404」的页面。

目前已恢复：https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer?tab=overview

Llama 3 的到来，正在社交平台 X 上掀起一股新的讨论风暴。

Meta AI 首席科学家、图灵奖得主 Yann LeCun 不仅为 Llama 3 的发布摇旗呐喊，并再次预告未来几个月将推出更多版本。就连马斯克也现身于该评论区，用一句简洁而含蓄的「Not bad 不错」，表达了对 Llama 3 的认可和期待。

英伟达高级科学家 JIm Fan 则将注意力投向了即将推出的 Llama 3 400B+，在他看来，Llama 3 的推出已经脱离了技术层面的进步，更是开源模型与顶尖闭源模型并驾齐驱的象征。

从其分享的基准测试可以看出，Llama 3 400B+ 的实力几乎媲美 Claude 超大杯、以及新版 GPT-4 Turbo，虽然仍有一定的差距，但足以证明其在顶尖大模型中占有一席之地。

今天恰逢斯坦福大学教授，AI 顶尖专家吴恩达的生日，Llama 3 的到来无疑是最特别的庆生方式。

不得不说，如今的开源模型真的是百花齐放，百家争鸣。

今年年初，手握 35 万块 GPU 的扎克伯格在接受 The Verge 的采访时，用坚定的语气描绘了 Meta 的愿景——致力于打造 AGI（通用人工智能）。

与不 open 的 OpenAI 形成鲜明对比，Meta 则沿着 open 的开源路线朝 AGI 的圣杯发起了冲锋。

正如扎克伯格所说，坚定开源的 Meta 在这条充满挑战的征途中也并非毫无收获：

我通常非常倾向于认为开源对社区和我们都有好处，因为我们会从创新中受益。

在过去的一年中，整个 AI 圈都在围绕开源或闭源的路线争论不休，这场辩论，已经超越了技术层面的优劣比较，触及了 AI 未来发展的核心方向。甚至亲自下场的马斯克也通过开源 Grok 1.0 的方式给全世界打了个样。

前不久，一些观点称开源模型将会越来越落后，如今 Llama 3 的到来，也给了这种悲观的论调一记响亮的耳光。

然而，尽管 Llama 3 为开源模型扳回一局，但这场关于开源与闭源的辩论还远未结束。

毕竟暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天，以无可匹敌的性能为这场旷日持久的争论画上一个句号。

科技

IP证书签发申请 - 天天要闻

IP证书签发申请

IP证书的全称是IP SSL证书，其主要的作用是为IP实现https访问，且IP SSL证书可以完美的解决企业对于IP地址实现https加密需求。这种类型的证书特别适合于那些没有域名只有公网IP或者不方便使用域名的企业或个人。

05月11日 1483

六福珠宝疑遭黑客攻击！500万名会员个人资料恐外泄 - 天天要闻

六福珠宝疑遭黑客攻击！500万名会员个人资料恐外泄

香港公私营机构遭黑客攻击勒索的事故频生。近日六福珠宝的会员数据库疑遭黑客入侵，并在暗网上贩售，黑客声称数据库包含500万名会员的资料，索价2.5万泰特币（约18万人民币）。

05月11日 1860

微信收费时代来临！支付霸主地位受挑战？ - 天天要闻

微信收费时代来临！支付霸主地位受挑战？

在科技的飞速发展下，移动支付市场正在经历一场新的变革。最近，微信支付宣布将于7月1日开始对转账或付款超过一定额度的交易收取手续费，这一政策引起了广泛的关注和讨论。本文将探讨这一新政策背后的市场逻辑与用户体验，以及移动支付市场竞争新态势的影响。

05月11日 1231

P&E 2024展会报道：尼康Z 28-400mm等长枪短炮亮相展台 - 天天要闻

P&E 2024展会报道：尼康Z 28-400mm等长枪短炮亮相展台

一年一度的P&E展会开幕了，全称为第二十五届中国国际照相机械影像器材与技术博览会，地点在北京展览馆，时间是5月10-13日。P&E 2024展会上云集了佳能、富士、尼康等日系巨头影像品牌，也有丰富的国产影像品牌、存储品牌亮相，并纷纷带来了旗下最重头的产品以及诸多新品，可以让用户近距离接触体验。今天，我们带领大家一起...

05月11日 5119

联想上架 2024 款 ThinkPad X1 Yoga：Ultra 7-155U，售 15999 元 - 天天要闻

联想上架 2024 款 ThinkPad X1 Yoga：Ultra 7-155U，售 15999 元

IT之家 5 月 11 日消息，联想今天在京东上架 2024 款 ThinkPad X1 Yoga 笔记本，这款笔记本采用“酷睿 Ultra 7-155U 处理器 + 32GB RAM + 1TB 存储空间”配置，商品页面显示价格为 15999 元，不过目前开售时间暂不得而知。据介绍，这款笔记本支持 360 度翻转机身，外观采用航空级铝合金打造，重量 1.3

05月11日 8769

苹果公司宣布！中国成了全球最大iPhone市场？比断供芯片更可怕？ - 天天要闻

苹果公司宣布！中国成了全球最大iPhone市场？比断供芯片更可怕？

引言蒂姆·库克，苹果公司的掌舵人发布了一则惊人的信息：中国已经跻身为iPhone在全球的最大市场。为何苹果作为一个美国品牌，却在中国市场取得了盛大的成功呢？为什么会有人认为中国变成全球最大的iPhone市场，比中断芯片供应更加令人忧虑呢？

05月11日 1980

Apple Watch X概念设计曝光：挖孔屏设计内置摄像头 - 天天要闻

Apple Watch X概念设计曝光：挖孔屏设计内置摄像头

【CNMO科技消息】今年，苹果将发布Apple Watch 10系列智能手表，可能被称为Apple Watch X。去年，彭博社的Mark Gurman表示，新手表将带来两项新的健康功能，涵盖心脏问题和高血压等领域。

05月11日 1189

2024款诺基亚3210功能机国行版热销，HMD Global宣布将于5月31日补货 - 天天要闻

2024款诺基亚3210功能机国行版热销，HMD Global宣布将于5月31日补货

驱动中国2024年5月11日消息，在科技日新月异的今天，一款复古风的功能手机却意外走红。5月8日，HMD Global推出了2024款诺基亚3210功能机的国行版，定价349元。据“诺基亚手机”官方微博透露，这款手机自开售以来销量喜人，短短两天内便被抢购一空，所有三款配色均显示为“无货”预约状态。为此，HMD Global宣布将在5月31日...

05月11日 1404

消息称OpenAI正在开发AI语音助理，GPT-5或年底前发布 - 天天要闻

消息称OpenAI正在开发AI语音助理，GPT-5或年底前发布

划重点 1、新的OpenAI软件内置了音频和视觉理解功能。 2、OpenAI的AI语音助手可以提高自动化客户服务代理的表现。 3、OpenAI有望在年底前完成GPT-5....

05月11日 4157

虹口一智能充电柜“立功”，阻止一场电池自燃火灾 - 天天要闻

虹口一智能充电柜“立功”，阻止一场电池自燃火灾

新民晚报讯（记者李一能）电动自行车电池在充电时，有概率会自燃，如果发生在生活区域，极易导致重大人员伤亡。在五一长假期间，虹口区广灵一村就发生了一起电池自燃事件，值得庆幸的是，该小区安装的智能充电柜发挥了作用，自动灭火装置及时控制火势，让这起本可能造成严重后果火灾的范围控制在了“方寸之间”，物损仅在...

05月11日 8587