最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊

2024年04月22日10:55:15 科技 1310

沒有出乎太多意外,Meta 帶著號稱「有史以來最強大的開源大模型」Llama 3 系列模型來「炸街」了。

具體來說,Meta 本次開源了 8B 和 70B 兩款不同規模的模型。

  • Llama 3 8B:基本上與最大的 Llama 2 70B 一樣強大。
  • Llama 3 70B: 第一檔 AI 模型,媲美 Gemini 1.5 Pro、全面超越 Claude 大杯

以上還只是 Meta 的開胃小菜,真正的大餐還在後頭。在未來幾個月,Meta 將陸續推出一系列具備多模態、多語言對話、更長上下文窗口等能力的新模型,其中超 400B 的重量級選手更是有望與 Claude 3 超大杯「掰手腕」。

Llama 3 體驗地址:https://llama.meta.com/llama3/

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

又一 GPT-4 級模型來了,Llama 3 開卷

與前代 Llama 2 模型相比,Llama 3 可謂是邁上了一個新的台階。

得益於預訓練和後訓練的改進,本次發布的預訓練和指令微調模型是當今 8B 和 70B 參數規模中的最強大的模型,同時,後訓練流程的優化顯著降低了模型的出錯率,增強了模型的一致性,並豐富了響應的多樣性。

扎克伯格曾在一次公開發言中透露,考慮到用戶不會在 WhatsApp 中向 Meta AI 詢問編碼相關的問題,因此 Llama 2 在這一領域的優化並不突出。

而這一次,Llama 3 在推理、代碼生成和遵循指令等方面的能力取得了突破性的提升,使其更加靈活和易於使用。

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

基準測試結果顯示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等測試的得分遠超 Google Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的話來說,最小的 Llama 3 基本上與最大的 Llama 2 一樣強大。

Llama 3 70B 則躋身於頂尖 AI 模型的行列,整體表現全面碾壓 Claude 3 大杯,與 Gemini 1.5 Pro 相比則是互有勝負。

為了準確研究基準測試下的模型性能,Meta 還特意開發了一套新的高質量人類評估數據集。

該評估集包含 1800 個提示,涵蓋 12 個關鍵用例:尋求建議、頭腦風暴、分類、封閉式問答、編碼、創意寫作、提取、塑造角色、開放式問答、推理、重寫和總結。

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

出於避免 Llama 3 在此評估集上出現過度擬合,Meta 甚至禁止他們的研究團隊訪問該數據集。在與 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一較量中,Meta Llama 70B 都以「壓倒性勝利」結束了比賽。

據 Meta 官方介紹,Llama 3 在模型架構上選擇了相對標準的純解碼器 Transformer 架構。與 Llama 2 相比,Llama 3 進行了幾項關鍵的改進:

  • Llama 3 使用了一個具有 128K token 辭彙表的 tokenizer,可以更有效地編碼語言,從而顯著提升模型性能。
  • 在 8B 和 70B 模型中都採用分組查詢注意力 (GQA),以提高 Llama 3 模型的推理效率。
  • 在 8192 個 token 的序列上訓練模型,使用掩碼來確保自注意力不會跨越文檔邊界。

訓練數據的數量和質量是推動下一階段大模型能力湧現的關鍵因素。

從一開始,Meta Llama 3 就致力於成為最強大的模型。Meta 在預訓練數據上投入了大量的資金。據悉,Llama 3 使用從公開來源收集的超過 15T 的 token,是 Llama 2 使用數據集的七倍,其中包含的代碼數據則是 Llama 2 的四倍。

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

考慮到多語言的實際應用,超過 5% 的 Llama 3 預訓練數據集由涵蓋 30 多種語言的高質量非英語數據組成,不過,Meta 官方也坦言,與英語相比,這些語言的性能表現預計是稍遜一籌。

為了確保 Llama 3 接受最高質量的數據訓練,Meta 研究團隊甚至提前使用啟發式過濾器、NSFW 篩選器、語義重複數據刪除方法和文本分類器來預測數據質量。

值得注意的是,研究團隊還發現前幾代 Llama 模型在識別高質量數據方面出奇地好,於是讓 Llama 2 為 Llama 3 提供支持的文本質量分類器生成訓練數據,真正實現了「AI 訓練 AI」。

除了訓練的質量,Llama 3 在訓練效率方面也取得了質的飛躍。

Meta 透露,為了訓練最大的 Llama 3 模型,他們結合了數據並行化、模型並行化和管道並行化三種類型的並行化。

在 16K GPU 上同時進行訓練時,每個 GPU 可實現超過 400 TFLOPS 的計算利用率。研究團隊在兩個定製的 24K GPU 集群上執行了訓練運行。

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

為了最大限度地延長 GPU 的正常運行時間,研究團隊開發了一種先進的新訓練堆棧,可以自動執行錯誤檢測、處理和維護。此外,Meta 還極大地改進了硬體可靠性和靜默數據損壞檢測機制,並且開發了新的可擴展存儲系統,以減少檢查點和回滾的開銷。

這些改進使得總體有效訓練時間超過 95%,也讓 Llama 3 的訓練效率比前代足足提高了約 3 倍。

更多技術細節歡迎查看 Meta 官方博客:https://ai.meta.com/blog/meta-llama-3/

開源 VS 閉源

作為 Meta 的「親兒子」,Llama 3 也順理成章地被優先整合到 AI 聊天機器人 Meta AI 之中。

追溯至去年的 Meta Connect 2023 大會,扎克伯格在會上正式宣布推出 Meta AI,隨後便迅速將其推廣至美國、澳大利亞、加拿大、新加坡、南非等地區。

在此前的採訪中,扎克伯格對搭載 Llama 3 的 Meta AI 更是充滿信心,稱其將會是人們可以免費使用的最智能的 AI 助手。

我認為這將從一個類似聊天機器人的形式轉變為你只需提出一個問題,它就能給出答案的形式,你可以給它更複雜的任務,它會去完成這些任務。

附上 Meta AI 網頁體驗地址:https://www.meta.ai/

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

當然,Meta AI 若是「 尚未在您所在的國家/地區推出」,你可以採用開源模型最樸素的使用渠道——全球最大的 AI 開源社區網站 Hugging Face。

附上體驗地址:https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct

Perplexity、Poe 等平台也迅速宣布將 Llama 3 集成到平台服務上。

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

你還可以通過調用開源模型平台 Replicate API 介面來體驗 Llama 3,其使用的價格也已經曝光,不妨按需使用。

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

有趣的是,在 Meta 官宣 Llama 3 前,有眼尖的網友發現微軟的 Azure 市場偷跑 Llama 3 8B Instruct 版本,但隨著消息的進一步擴散,當蜂擁而至的網友再次嘗試訪問該鏈接時,得到的只有「404」的頁面。

目前已恢復:https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer?tab=overview

Llama 3 的到來,正在社交平台 X 上掀起一股新的討論風暴。

Meta AI 首席科學家、圖靈獎得主 Yann LeCun 不僅為 Llama 3 的發布搖旗吶喊,並再次預告未來幾個月將推出更多版本。就連馬斯克也現身於該評論區,用一句簡潔而含蓄的「Not bad 不錯」,表達了對 Llama 3 的認可和期待。

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

英偉達高級科學家 JIm Fan 則將注意力投向了即將推出的 Llama 3 400B+,在他看來,Llama 3 的推出已經脫離了技術層面的進步,更是開源模型與頂尖閉源模型並駕齊驅的象徵。

從其分享的基準測試可以看出,Llama 3 400B+ 的實力幾乎媲美 Claude 超大杯、以及 新版 GPT-4 Turbo,雖然仍有一定的差距,但足以證明其在頂尖大模型中佔有一席之地。

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

今天恰逢斯坦福大學教授,AI 頂尖專家吳恩達的生日,Llama 3 的到來無疑是最特別的慶生方式。

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

不得不說,如今的開源模型真的是百花齊放,百家爭鳴。

最強開源大模型深夜炸場! Llama 3歸來,直逼GPT-4, 馬斯克點贊 - 天天要聞

今年年初,手握 35 萬塊 GPU 的扎克伯格在接受 The Verge 的採訪時,用堅定的語氣描繪了 Meta 的願景——致力於打造 AGI(通用人工智慧)。

與不 open 的 OpenAI 形成鮮明對比,Meta 則沿著 open 的開源路線朝 AGI 的聖杯發起了衝鋒。

正如扎克伯格所說,堅定開源的 Meta 在這條充滿挑戰的征途中也並非毫無收穫:

我通常非常傾向於認為開源對社區和我們都有好處,因為我們會從創新中受益。

在過去的一年中,整個 AI 圈都在圍繞開源或閉源的路線爭論不休,這場辯論,已經超越了技術層面的優劣比較,觸及了 AI 未來發展的核心方向。甚至親自下場的馬斯克也通過開源 Grok 1.0 的方式給全世界打了個樣。

前不久,一些觀點稱開源模型將會越來越落後,如今 Llama 3 的到來,也給了這種悲觀的論調一記響亮的耳光。

然而,儘管 Llama 3 為開源模型扳回一局,但這場關於開源與閉源的辯論還遠未結束。

畢竟暗中蓄勢待發的 GPT-4.5/5 也許會在今年夏天,以無可匹敵的性能為這場曠日持久的爭論畫上一個句號。

科技分類資訊推薦

聯想王傳東:2024年,AI應用元年開啟 - 天天要聞

聯想王傳東:2024年,AI應用元年開啟

「當前基於大模型的AI應用層出不窮,並呈現爆發的態勢。2024年已經成為AI應用元年。」5月11日,聯想集團副總裁、中國區首席市場官王傳東在英特爾人工智慧創新應用大賽總決賽暨頒獎典禮上作出上述表示。(聯想集團副總裁、中國區首席市場官王傳東)當天,為期5個月的英特爾人工智慧創新應用大賽總決賽圓滿結束,共有2120支團...
傻瓜才把激光雷達裝車上,馬斯克的嘲笑,正成為現實? - 天天要聞

傻瓜才把激光雷達裝車上,馬斯克的嘲笑,正成為現實?

新能源汽車,或者說電動汽車,有一個非常重要的功能,那就是自動駕駛技術。當然,自動駕駛技術在當前也叫輔助駕駛,因為法律規定的上路商用的,只能是L2級,這種做不到雙方離開方向盤,真正要達到L3,才能算有條件自動駕駛。
創維汽車回應創始人稱躺車裡可緩解高血壓:系個人親身經歷 - 天天要聞

創維汽車回應創始人稱躺車裡可緩解高血壓:系個人親身經歷

5月12日,南都記者從創維汽車方面獲悉,針對此前有關「創維汽車創始人稱開創維汽車能治病還能延壽」的言論,創維汽車方面回應稱,其獨創的健康3.0系統主動健康監測和主動睡眠促進等技術,確有實時評估生命體征、改善睡眠質量等作用,但從無「治病」、「延壽」等表述,網傳信息屬於斷章取義、惡意拼湊,嚴重誤導公眾。創維汽...
報告:印度智能手機市場消費升級趨勢明顯 - 天天要聞

報告:印度智能手機市場消費升級趨勢明顯

【環球網科技綜合報道】5月12日消息,據外媒報道,根據市場研究機構Counterpoint的最新報告,印度智能手機市場正迎來消費升級的趨勢,消費者越來越傾向於購買更高端的手機型號。隨著用戶對手機性能需求的提升,如遊戲、人工智慧應用以及高質量圖像拍攝,經濟實惠的融資計劃和以舊換新政策也在推動這一轉變。報告顯示,售價...
環球視角:Arm Holdings籌劃2025年推出AI晶元 - 天天要聞

環球視角:Arm Holdings籌劃2025年推出AI晶元

【環球網科技綜合報道】5月12日消息,據《日經亞洲》最新報道,軟銀集團旗下的Arm Holdings已計劃涉足人工智慧晶元領域,目標是在2025年向市場推出其首款產品。據悉,這家總部位於英國的晶元設計公司準備成立專門的人工智慧晶元部門,並致力於在2025年春季之前完成原型產品的構建工作。據《日經亞洲》透露,新晶元的批量生...
小米米家智能嵌入式洗碗機 13 套S2上架:黑白兩色,預售 2699 元 - 天天要聞

小米米家智能嵌入式洗碗機 13 套S2上架:黑白兩色,預售 2699 元

IT之家 5 月 12 日消息,日前,小米米家智能嵌入式洗碗機 13 套 S2 上架京東等電商平台,預售價 2699 元,5 月 20 日晚 8 點支付尾款。據介紹,這款洗碗機升級加強烘乾 + 三重烘乾,其中包括 PTC 熱風烘乾、智能開關門烘乾、餘溫烘乾;升級三叉噴淋臂,噴淋水流與餐具接觸頻次提升 12.5%,清潔指數可達 1.18;配備 45000Pa.
2023款小米旗艦猛跌2200,16GB+512GB親民了,2K屏幕+全焦段四攝 - 天天要聞

2023款小米旗艦猛跌2200,16GB+512GB親民了,2K屏幕+全焦段四攝

安卓手機廠商確實不能像蘋果一樣能夠一年發布一代手機,它們每年需要發布多款機型,可能包括旗艦機、中端機以及千元手機,這樣的頻次才能確保持續吸引消費者。而在新老機型迭代的窗口期,老款手機又能實現降維打擊,就像小米13Ultra,自上市以來憑藉強大的性能配置和看出色的機身設計風格贏得了消費者好評。如今手機市場的...
諾基亞「情懷機」斷貨了,2.4英寸+200萬+4G網,你成功入手了嗎? - 天天要聞

諾基亞「情懷機」斷貨了,2.4英寸+200萬+4G網,你成功入手了嗎?

悄無聲息地干大事,估計說的就是諾基亞手機了吧。原本多數用戶的注意力早就被智能手機廠商接連不斷發布的新機給吸引去了,誰能想到一款在1999年發布的功能機,如今被複刻後居然賣斷了貨?提及諾基亞手機,很多人都可能唏噓不已。但手機市場競爭就是那麼殘酷,過去諾基亞在智能手機時代迅速失勢,有自身的一些因素,也有來自...
天璣9300旗艦售價動搖了,120W+5000mAh+IP68,配6400萬實力三攝 - 天天要聞

天璣9300旗艦售價動搖了,120W+5000mAh+IP68,配6400萬實力三攝

搭載驍龍8Gen3和天璣9300晶元的旗艦已經是市場的主流機型了,稍微不同的是驍龍8Gen3手機的數量要多一些,但是高通還是有壓力的。結合安兔兔給出的4月份安卓旗艦機性能排行榜來看有多款天璣9300手機榜上有名,其中就包括vivo X100。如果說驍龍8Gen3手機的性能輸出更均衡,那麼天璣9300旗艦機的調教更迅猛一些,特別是在遊戲...