Meta AI 的 OPT-175B 具有 1750 億個參數,與 OpenAI 的 GPT-3 等商業語言模型相當。近日,Meta AI 宣布將全面開放 OPT-175B。這意味着大規模語言模型迎來大眾化。
過去幾年以來,大規模語言模型,也就是那些包含 1000 億以上參數的自然語言處理(NLP)系統,已經改變了整個 NLP 乃至 AI 研究風向。這些模型接受過海量文本素材的訓練,已經在生成創意文本、解決基礎數學試題、回答閱讀理解問題等方面表現出了令人驚訝的能力。
雖然此前公眾也可以通過付費 API 與一部分此類模型進行交互,但其完整的研究與訪問權限仍只屬於少數資源豐富的實驗室。這種訪問層面的限制不僅大大阻礙了研究人員對這類大型語言模型及其原理的理解,更拉高了提升模型穩健性、緩解偏見/“有毒”觀念等已知問題的參與門檻。
根據 Meta AI 做出的開放科學承諾,我們決意共享 Open Pretrained Transformer (OPT-175B)模型。這是一套包含 1750 億個參數,由公開數據集訓練而成的語言模型,希望幫助更多社群參與並理解這項基礎性技術成果。
這也是大規模語言技術系統在歷史上第一次毫無保留,把預訓練模型、訓練代碼以及使用代碼全部展現在公眾面前。
為了保持模型完整性並防止濫用,我們將以非商業許可的形式發布這套模型,希望 OPT-175B 僅被用於研究用途。具體來講,這套模型的訪問權限將針對學術研究者全面開放,包括隸屬於政府、民間社會和學界組織的人員,以及全球各地的工業研究實驗室。
我們堅信,由學界研究者、民間社會、政策制定者及產業界共同構成的整個 AI 社區,一直在努力打造負責任的 AI 解決方案。這一基本思路也應成為大型語言模型的指導方針,進而約束以大規模語言模型為中心的更多下游具體應用。
AI 社區成員有必要訪問這些模型,開展可重複研究並共同推動整個領域向前發展。隨着 OPT-175B 與小規模基準的發布,我們希望能為這一技術倫理難題的解決引入新的多樣性思路。
以負責任的態度發布 OPT-175B
遵循 Partnership on AI 為研究人員制定的發布指南,再結合 NIST 在 2022 年 3 月提出的治理指南概述(第 3.4 節),我們決定發布 OPT-175B 開發過程中的所有筆記和記錄,包括詳盡介紹日常訓練過程的完整日誌。
如此一來,其他研究者就能輕鬆在我們的工作基礎之上再接再厲,做出意義深遠的其他延拓。此外,結合這些細節,大家還能理解 OPT-175B 模型的整體訓練計算量;以及在底層基礎設施或訓練過程出現大規模穩定性波動時,需要投入多少人力進行調整。
除了 OPT-175B 本體之外,我們還發布了可在 16 個英偉達 V100 GPU 上運行的模型訓練和部署代碼庫,希望能提高這些模型的可訪問性。為了幫助大家做好研究,我們還針對可量化的潛在危害提出一套通用性的衡量指標。
此外,我們也全面發布一套體量更小的基準模型,與 OPT-175B 本體採用相同的訓練數據集和參數設置,可供研究人員單獨探索模型規模差異造成的實際影響。
這些小規模模型的參數量分為 1.25 億、3.5 億、13 億、27 億、67 億、130 億和 300 億幾種,後續我們還將發布 660 億參數的版本。
負責任地計算
AI 研究的最新發展消耗掉了大量算力。雖然行業實驗室已經在報告各類模型產生的碳足跡,但其中大多並不包括實驗研發階段的相關計算成本。在某些情況下,初期階段耗費的資源可能要比訓練最終模型還要高出一個數量級。
我們在開發 OPT-175B 時也充分考慮到能源效率因素,最終以僅為 GPT-3 七分之一的碳排放量成功完成了模型訓練。我們在 Megatron-LM 中將 Meta 的開源全分片數據並行(FSDP)API 與英偉達的張量並行抽象結合起來,共同實現了這一壯舉。
我們在英偉達 80 GB 版本的 A100 GPU 上實現了約 147 TFLOP/s/GPU 的超高利用率,這一結果比英偉達研究人員在同等硬件上公布的數據高出約 17%。
通過代碼庫,我們共享了這些寶貴的 175B 模型訓練基準,希望能幫助更多研究人員減少整體碳足跡,也希望能以這種統一的標準衡量 AI 領域的最新成果與前沿進展。
通過開放合作推動研究發展
為了推進 AI 研究工作,整個學界必須與前沿模型開展廣泛合作,在快速探索模型潛力的同時發現其中的“軟肋”。與我們之前的開放科學計劃(例如圖像相似性挑戰賽、Deepfake 檢測挑戰賽和 Hateful Mems 挑戰賽)一樣,Meta AI 認為只有這樣的跨組織合作,才能幫助我們一步步走近真正負責任的 AI 開發方法。
儘管大型語言模型領域帶來了一系列令人興奮的發展成果,但這些模型本身的局限性和風險因素仍未得到有效把握。如果無法直接訪問這些模型,研究人員也很難為其規划出可行的傷害檢測與緩解策略。換言之,檢測與緩解能力將完全被那些擁有足夠財力的研究者所掌握。
我們希望 OPT-175B 的開放能為大型語言模型的前沿探索引入更多觀點,幫助社區集群設計出負責任的發布策略,最終給大規模語言模型的開發帶來前所未有的透明度與開放性。
點擊此處可訪問開源代碼與小型預訓練模型;
點擊此處申請訪問 OPT-175B 模型;
點擊此處可閱讀論文原文。
各預訓練模型均遵循OPT-175B許可協議 。
原文鏈接:
https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
了解更多軟件開發與相關領域知識,點擊訪問 InfoQ 官網:https://www.infoq.cn/,獲取更多精彩內容!