最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞

2024年04月22日10:55:15 科技 1310

没有出乎太多意外,Meta 带着号称“有史以来最强大的开源大模型”Llama 3 系列模型来“炸街”了。

具体来说,Meta 本次开源了 8B 和 70B 两款不同规模的模型。

  • Llama 3 8B:基本上与最大的 Llama 2 70B 一样强大。
  • Llama 3 70B: 第一档 AI 模型,媲美 Gemini 1.5 Pro、全面超越 Claude 大杯

以上还只是 Meta 的开胃小菜,真正的大餐还在后头。在未来几个月,Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型,其中超 400B 的重量级选手更是有望与 Claude 3 超大杯“掰手腕”。

Llama 3 体验地址:https://llama.meta.com/llama3/

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

又一 GPT-4 级模型来了,Llama 3 开卷

与前代 Llama 2 模型相比,Llama 3 可谓是迈上了一个新的台阶。

得益于预训练和后训练的改进,本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最强大的模型,同时,后训练流程的优化显著降低了模型的出错率,增强了模型的一致性,并丰富了响应的多样性。

扎克伯格曾在一次公开发言中透露,考虑到用户不会在 WhatsApp 中向 Meta AI 询问编码相关的问题,因此 Llama 2 在这一领域的优化并不突出。

而这一次,Llama 3 在推理、代码生成和遵循指令等方面的能力取得了突破性的提升,使其更加灵活和易于使用。

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

基准测试结果显示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试的得分远超 Google Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的话来说,最小的 Llama 3 基本上与最大的 Llama 2 一样强大。

Llama 3 70B 则跻身于顶尖 AI 模型的行列,整体表现全面碾压 Claude 3 大杯,与 Gemini 1.5 Pro 相比则是互有胜负。

为了准确研究基准测试下的模型性能,Meta 还特意开发了一套新的高质量人类评估数据集。

该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

出于避免 Llama 3 在此评估集上出现过度拟合,Meta 甚至禁止他们的研究团队访问该数据集。在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一较量中,Meta Llama 70B 都以“压倒性胜利”结束了比赛。

据 Meta 官方介绍,Llama 3 在模型架构上选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 进行了几项关键的改进:

  • Llama 3 使用了一个具有 128K token 词汇表的 tokenizer,可以更有效地编码语言,从而显著提升模型性能。
  • 在 8B 和 70B 模型中都采用分组查询注意力 (GQA),以提高 Llama 3 模型的推理效率。
  • 在 8192 个 token 的序列上训练模型,使用掩码来确保自注意力不会跨越文档边界。

训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。

从一开始,Meta Llama 3 就致力于成为最强大的模型。Meta 在预训练数据上投入了大量的资金。据悉,Llama 3 使用从公开来源收集的超过 15T 的 token,是 Llama 2 使用数据集的七倍,其中包含的代码数据则是 Llama 2 的四倍。

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

考虑到多语言的实际应用,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成,不过,Meta 官方也坦言,与英语相比,这些语言的性能表现预计是稍逊一筹。

为了确保 Llama 3 接受最高质量的数据训练,Meta 研究团队甚至提前使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测数据质量。

值得注意的是,研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇地好,于是让 Llama 2 为 Llama 3 提供支持的文本质量分类器生成训练数据,真正实现了“AI 训练 AI”。

除了训练的质量,Llama 3 在训练效率方面也取得了质的飞跃。

Meta 透露,为了训练最大的 Llama 3 模型,他们结合了数据并行化、模型并行化和管道并行化三种类型的并行化。

在 16K GPU 上同时进行训练时,每个 GPU 可实现超过 400 TFLOPS 的计算利用率。研究团队在两个定制的 24K GPU 集群上执行了训练运行。

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

为了最大限度地延长 GPU 的正常运行时间,研究团队开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。此外,Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制,并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。

这些改进使得总体有效训练时间超过 95%,也让 Llama 3 的训练效率比前代足足提高了约 3 倍。

更多技术细节欢迎查看 Meta 官方博客:https://ai.meta.com/blog/meta-llama-3/

开源 VS 闭源

作为 Meta 的“亲儿子”,Llama 3 也顺理成章地被优先整合到 AI 聊天机器人 Meta AI 之中。

追溯至去年的 Meta Connect 2023 大会,扎克伯格在会上正式宣布推出 Meta AI,随后便迅速将其推广至美国、澳大利亚、加拿大、新加坡、南非等地区。

在此前的采访中,扎克伯格对搭载 Llama 3 的 Meta AI 更是充满信心,称其将会是人们可以免费使用的最智能的 AI 助手。

我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题,它就能给出答案的形式,你可以给它更复杂的任务,它会去完成这些任务。

附上 Meta AI 网页体验地址:https://www.meta.ai/

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

当然,Meta AI 若是“ 尚未在您所在的国家/地区推出”,你可以采用开源模型最朴素的使用渠道——全球最大的 AI 开源社区网站 Hugging Face。

附上体验地址:https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct

Perplexity、Poe 等平台也迅速宣布将 Llama 3 集成到平台服务上。

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

你还可以通过调用开源模型平台 Replicate API 接口来体验 Llama 3,其使用的价格也已经曝光,不妨按需使用。

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

有趣的是,在 Meta 官宣 Llama 3 前,有眼尖的网友发现微软的 Azure 市场偷跑 Llama 3 8B Instruct 版本,但随着消息的进一步扩散,当蜂拥而至的网友再次尝试访问该链接时,得到的只有“404”的页面。

目前已恢复:https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer?tab=overview

Llama 3 的到来,正在社交平台 X 上掀起一股新的讨论风暴。

Meta AI 首席科学家、图灵奖得主 Yann LeCun 不仅为 Llama 3 的发布摇旗呐喊,并再次预告未来几个月将推出更多版本。就连马斯克也现身于该评论区,用一句简洁而含蓄的“Not bad 不错”,表达了对 Llama 3 的认可和期待。

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

英伟达高级科学家 JIm Fan 则将注意力投向了即将推出的 Llama 3 400B+,在他看来,Llama 3 的推出已经脱离了技术层面的进步,更是开源模型与顶尖闭源模型并驾齐驱的象征。

从其分享的基准测试可以看出,Llama 3 400B+ 的实力几乎媲美 Claude 超大杯、以及 新版 GPT-4 Turbo,虽然仍有一定的差距,但足以证明其在顶尖大模型中占有一席之地。

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

今天恰逢斯坦福大学教授,AI 顶尖专家吴恩达的生日,Llama 3 的到来无疑是最特别的庆生方式。

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

不得不说,如今的开源模型真的是百花齐放,百家争鸣。

最强开源大模型深夜炸场! Llama 3归来,直逼GPT-4, 马斯克点赞 - 天天要闻

今年年初,手握 35 万块 GPU 的扎克伯格在接受 The Verge 的采访时,用坚定的语气描绘了 Meta 的愿景——致力于打造 AGI(通用人工智能)。

与不 open 的 OpenAI 形成鲜明对比,Meta 则沿着 open 的开源路线朝 AGI 的圣杯发起了冲锋。

正如扎克伯格所说,坚定开源的 Meta 在这条充满挑战的征途中也并非毫无收获:

我通常非常倾向于认为开源对社区和我们都有好处,因为我们会从创新中受益。

在过去的一年中,整个 AI 圈都在围绕开源或闭源的路线争论不休,这场辩论,已经超越了技术层面的优劣比较,触及了 AI 未来发展的核心方向。甚至亲自下场的马斯克也通过开源 Grok 1.0 的方式给全世界打了个样。

前不久,一些观点称开源模型将会越来越落后,如今 Llama 3 的到来,也给了这种悲观的论调一记响亮的耳光。

然而,尽管 Llama 3 为开源模型扳回一局,但这场关于开源与闭源的辩论还远未结束。

毕竟暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天,以无可匹敌的性能为这场旷日持久的争论画上一个句号。

科技分类资讯推荐

2023年全球十大芯片设计厂商:英伟达第一,韦尔半导体第九! - 天天要闻

2023年全球十大芯片设计厂商:英伟达第一,韦尔半导体第九!

5月10日消息,据市场研调机构集邦科技TrendForce昨日公布的2023年年全球前十大芯片设计厂排名显示,受益于AI芯片需求火爆,英伟达(NVIDIA)首度挤下高通、博通等老牌大厂,成为全球第一大芯片设计厂商。具体来说,排名第一的英伟达2023年营收达552.68亿美元,同比暴涨105%,这主要得益于其 H100系列AI GPU的大卖,目前英伟...
中国信通院《工业供应链数字化白皮书(2023年)》正式发布,致景科技参与编写 - 天天要闻

中国信通院《工业供应链数字化白皮书(2023年)》正式发布,致景科技参与编写

近日,中国信息通信研究院(以下简称“中国信通院”)联合工业互联网产业联盟共同发布《工业供应链数字化白皮书(2023年)》(以下简称“白皮书”)。白皮书由中国信通院牵头,深圳华为云计算技术有限公司、浙江菜鸟供应链管理有限公司、美云智数科技有限公司、致景信息科技有限公司等6家单位共同参与编写,通过重点分析数...
抢占低空赛道 竞逐“天空之城” 武汉低空经济产业园焕发新生 - 天天要闻

抢占低空赛道 竞逐“天空之城” 武汉低空经济产业园焕发新生

图为:低空经济产业园。 图为:低空经济产业园。 荆楚网(湖北日报网)讯(通讯员李曦 舒丽媛)乘坐地铁16号线到通航机场站下车,骑行几分钟,便到了现代化建筑风格的武汉经开产投·低空经济产业园(简称“低空经济产业园”)。 富有科技感、飞行器造型的办公楼、气势恢宏的厂房,提醒着人们园区高标准配置。低空经济产业...
中芯国际营收首度超越联电及格芯,成全球第三大晶圆代工厂! - 天天要闻

中芯国际营收首度超越联电及格芯,成全球第三大晶圆代工厂!

5月9日晚间,中国大陆晶圆代工龙头大厂中芯国际公布了2024年一季度财报。虽然净利润因为应占联营企业与合营企业利润由盈转亏,导致同比大跌68.9%,但是营收和毛利率均优于官方的业绩指引,并且中芯国际一季度的营收首次超过了联电和格芯,成为仅次于台积电和三星的全球第三大晶圆代工厂商。一季度营收同比增长19.7%,净利同...
黑爵 AK820MAX 三模机械键盘上架:Gasket 结构,199 元起 - 天天要闻

黑爵 AK820MAX 三模机械键盘上架:Gasket 结构,199 元起

IT 之家 5 月 10 日消息,黑爵今天在京东上架一款型号为 AK820MAX 的三模机械键盘,这款机械键盘采用 75 配列 + Gasket 结构,将于 5 月 16 日开售,标准版首发价 199 元,带屏版 299 元。据介绍,这款键盘外观由原先 AK820 的直角边改为圆润版本,同时拥有 1 枚音量旋钮 + 1 块 TFT 彩屏(可选),内置 400
蔚来第二品牌发布在即,李斌:“后发制人”更有胜算,向华为小米学习 - 天天要闻

蔚来第二品牌发布在即,李斌:“后发制人”更有胜算,向华为小米学习

5月9日,在位于合肥新桥智能电动汽车产业园区的蔚来第二工厂,蔚来第50万台量产车型下线,该车为全新ES8,用户则是科大讯飞董事长刘庆峰。在蔚来汽车第50万台量产车下线的同时,蔚来方面也透露了更多关于第二品牌“乐道”的信息。蔚来CEO李斌宣布,乐道汽车将于5月15日正式发布。2014年,蔚来正式成立,2018年,蔚来的第一...
首款骁龙8 Gen4小屏旗舰!小米15曝光 - 天天要闻

首款骁龙8 Gen4小屏旗舰!小米15曝光

快科技5月10日消息,博主数码闲聊站暗示,小米15仍然定位小屏满血旗舰,其屏幕尺寸在6.3-6.4英寸之间,搭载骁龙8 Gen4平台,后置左上角方形Deco三摄,主摄是5000万像素,支持超声波屏幕指纹。这是行业内第一款骁龙8 Gen4小屏旗舰,也是史上性能最强的小米手机。对比上代,小米15搭载的骁龙8 Gen4升级为台积电3nm工艺,这意...
手机特种兵!魅族21 Note、Flyme AIOS官宣定档:5月16日发 - 天天要闻

手机特种兵!魅族21 Note、Flyme AIOS官宣定档:5月16日发

快科技5月10日消息,星纪魅族集团正式官宣Flyme AIOS暨魅族21 Note手机特种兵发布会将于5月16日举行。全新Flyme AIOS、魅族21 Note等AI新品及系列科技产品将共同亮相,官方称“魅族将迈向AI赋能科技产品新阶段”。其中全新的Flyme AIOS将从源头融入原生级AI底座,在各种用户场景发挥AI真正实力,打破传统系统+AI概念,在人
璩静引发舆论风波!李彦宏称优秀员工才代表真实的百度,消息称袁佛玉或暂时接管公关团队 - 天天要闻

璩静引发舆论风波!李彦宏称优秀员工才代表真实的百度,消息称袁佛玉或暂时接管公关团队

金融界5月10日消息 近日,百度公关副总裁璩静因发布短视频引发风波,将其与百度置于舆论漩涡之中。5月9日凌晨,其在朋友圈发文道歉。不过,最新消息显示其已经从百度离职。据腾讯深网消息,5月9日下午,百度创始人李彦宏与人力资源负责人崔珊珊召开小范围员工沟通会,对璩静事件进行了点评。据悉,李彦宏现场表彰了百度优秀...
动态磁贴回归?微软 Win11 开始菜单测试浮动小部件窗口 - 天天要闻

动态磁贴回归?微软 Win11 开始菜单测试浮动小部件窗口

IT之家 5 月 10 日消息,消息源 @thebookisclosed 近日发布推文,在微软最新发布的 Windows 11 Build 26212 预览版中发现了名为“Companions”的新特性,启用后会在开始菜单附近出现类似于“动态磁贴”效果。根据演示截图,用户可以选择将“动态磁贴”放置在开始菜单的左侧或者右侧,可以显示天气、股价等信息内容,预估未