白交 發自 凹非寺
量子位 | 公眾號 QbitAI
一篇AI論文,442個作者。
其中還專門留了一章節寫作者貢獻。
100頁里超過一半都是參考文獻……
不是,現在都流行這樣式兒的論文嗎?
這不,谷歌最新發布的論文——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models。
於是作者那一欄就變成了這樣……
來自132個機構的研究學者,耗時兩年提出了一個大語言模型新基準BIG-bench。
並在此基礎上評估了OpenAI的GPT模型,Google-internal dense transformer架構等,模型規模橫6個數量級。
最終結果顯示,模型性能雖然隨著規模的擴大而提高,但跟人類的表現相差還很遠。
對於這項工作,Jeff Dean轉發點贊:Great Work。
大語言模型新基準
來康康這篇論文究竟說了什麼。
隨著規模的擴大,模型的性能和質量都有一定的改進,這當中可能還存在一些變革性影響,但這些性能此前都沒有很好的描述。
現存的一些基準都有一定的局限性,評估範圍比較狹窄,性能分數迅速達到飽和。
比如SuperGLUE,在該基準推出後的18個月內,模型就實現了「超過人類水平」的性能。
基於這樣的背景,BIG-bench就誕生了。
目前它由204個任務組成,內容涵蓋語言學、兒童發展、數學、常識推理、生物學、物理學、社會偏見、軟體開發等方面的問題。
此外還有個人類專家評審團,也執行了所有任務,以提供基線水平。
為了方便更多機構使用,研究人員還給出了BIG-bench Lite,一個小型但有代表性的任務子集,方便更快地評估。
以及開源了實現基準API的代碼,支持在公開可用的模型上進行任務評估,以及新任務的輕量級創建。
最終評估結果可以看到,規模橫跨六個數量級,BIG-bench上的總體性能隨著模型規模的擴大、訓練樣本數量的增加而提高。
但跟人類基線水平相比,還是表現得比較差。
具體在一些任務上,模型性能會隨著規模的增加而平穩地提高。但有時候,會在特定規模上突然出現突破性表現。
此外,它還可以評估模型存在的社會偏見。
此外,他們還意外發現模型還可以get一些隱藏技能。比如,如何在國際象棋中合乎規則的移動。
作者貢獻寫了14頁
值得一提的是,可能因為作者過多,論文最後還專門留了一章寫作者貢獻。
洋洋洒洒的寫了14頁,其中包括核心貢獻者、Review的、提供任務的……
剩下的,還有50頁的參考文獻。
好了,感興趣的旁友可戳下方鏈接康康論文。
論文鏈接:
https://arxiv.org/abs/2206.04615
GitHub鏈接:
https://github.com/google/BIG-bench
參考鏈接:
https://twitter.com/jaschasd/status/1535055886913220608
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態