語言AI原來知道自己的回答是否正確！伯克利等高校新研究火了

2022年07月15日15:23:02 科技 1211

萬博發自凹非寺
量子位 | 公眾號 QbitAI

語言AI，具備了人類的自我審視能力：

最近，一個來自加州大學伯克利分校和霍普金斯大學的學術團隊研究表明：

它不僅能判斷自己的答案正確與否，而且經過訓練，還能預測自己知道一個問題答案的概率。

研究成果一經發布，就引起熱議，有人的第一反應是恐慌：

也有人認為，這項成果，對神經網路研究具有正面意義：

語言AI具備自我審視能力

研究團隊認為，如果要讓語言AI模型自我評估，必須有一個前提：

語言AI回答問題時，會校準自己的答案。

這裡的校準，就是語言AI預測一個答案的正確概率，是否與實際發生的概率一致。

只有這樣語言AI才可以運用這種校準的能力來評估自己輸出的答案是否正確。

所以第一個問題是，語言AI能否對自己的答案進行校準？

為了證明這個問題，研究團隊為AI準備了5個選擇題：

答案選項，以A、B、C的形式給出。

如果AI模型答案的正確率超過偶然幾率，那麼就證明AI模型給出的答案是經過校準的。

而測試的結果是，語言AI給出的答案，正確率明顯超過任意選項的偶然幾率。

也就是說，語言AI模型可以對自己的答案進行很好的校準。

但研究團隊發現，語言AI的校準能力，是建立在選項答案明確的前提下的。

如果在選項中加入一個「以上都不是」的不確定選項，就會損害語言AI的校準能力。

也就是說，在特定格式的選擇題中，語言AI模型可以對答案進行很好的校準。

明確了這個前提之後，下一個問題是，驗證語言AI模型能夠判斷自己的答案是否正確。

在這一輪的測試中，為了能讓AI模型的預測更接近自己的有效決策邊界。

研究團隊仍然選擇上一輪測試的問題，以及語言AI模型的答案樣本。

同時讓AI模型選擇自己的答案真假與否，之後再針對這個「真」或「假」的答案，分析AI模型是否做出有效的校準。

問題設置舉例如下：

在經過20次的真假測試之後，研究團隊發現，語言AI模型對自己答案或「真」或「假」的評價，都經過明顯的校準。

也就是說，如果在一個範圍內，給AI模型提出若干問題，然後AI模型對這些問題的答案進行真假評價，具有合理的，且經過校準的置信度。

這也證明，語言AI模型確實可以判斷自己對一個問題的主張是否正確。

最後，研究團隊對語言AI模型提出了一個更難的問題：AI模型經過訓練，能否預測他們是否知道任何給定問題的答案。

在這一環節，研究團引入一個數據P(IK)（我知道這個答案的概率）並在下面兩種訓練方式中挑選一種進行訓練：

Value Head（價值導向）:把P(IK)訓練成為一個額外的價值導向，再添加到模型的對數（獨立於語言建模的對數，這種方法的優勢在於，研究團隊可以很容易的探測P(IK)的一般標記位置。
Natural Language（自然語言）：這種方法比較簡單，就是要求AI模型從字面上回答「你知道這個答案的概率是多少」，同時輸出一個百分比數據答案。

在訓練初期，研究團隊比較傾向於自然語言訓練方式，但結果並不顯著，由此轉向價值導向方式，不過研究團隊同時表示，最終對AI模型的訓練還將回歸自然語言方法。

在經過訓練之後，研究團隊發現，語言AI模型可以很好的預測P(IK)，並且在不同類型的問題中，這種預測能力具有部分通用性。

不過，研究團隊也發現，在某些類型的問題，比如算術問題，語言AI模型在OOD校準時有一些困難。

對於這一學術成果，研究團隊表示，將來的方向，是將這些成果，推廣到語言AI模型不模仿人類文本的前提下，自我學習和事實推理領域。

作者介紹

論文通訊作者Jared Kaplan博士，是一位理論物理學家，同時也是一位機器學習專家，現擔任霍普金斯大學助理教授，主要研究領域，機器學習研究，包括神經模型的縮放規律以及GPT-3語言模型。

共同通訊作者Saurav Kadavath，Anthropic公司研究員，現在加州大學伯克利分校EECS專業攻讀碩士學位，主要研究領域是機器學習，大規模語言學習等。

參考鏈接：

https://arxiv.org/abs/2207.05221

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

科技

惠普星 Desk 台式機新增「Ultra 5-225 + 32G + 1T」，5399 元

IT之家 7 月 7 日消息，惠普現已為其星 Desk 台式機新增一塊「Ultra 5-225 + 32GB RAM + 1TB SSD + 400W 電源」配置，定價為 5399 元（IT之家註：附送滑鼠鍵盤）。該機所用機箱外觀造型商務，正面配備木紋封閉式前面板，機箱整體體積 16L。機器搭載 B860 主板，配備 10 核 10 線程英特爾酷睿 Ultr

07月07日 3934

艾訊科技推出英特爾 N50 處理器迷你嵌入主板 KIWI330

IT之家 7 月 7 日消息，艾訊科技 (Axiomtek) 現已公布了一款尺寸僅有 1.6 英寸的英特爾 N50 處理器迷你嵌入式主板「KIWI330」，主要用於工業及自動化場景。IT之家獲悉，這款主板面積為 72x56mm，其搭載一顆英特爾酷睿 N50 處理器，主頻 3.4GHz，三級緩存 6MB，熱設計功耗 6W。其他方面，該主板配備板載 4GB LP

07月07日 5122

位元組跳動開源其 AI IDE 工具核心組件 Trae-Agent

IT之家 7 月 7 日消息，位元組跳動旗下 AI 原生集成開發環境（IDE）Trae 於 7 月 4 日宣布正式開源其核心組件 Trae-Agent。Trae 官方還表示，正在尋找活躍的用戶和智能體開發者，需要願意為構建一個開放的智能體生態系統做出貢獻。GitHub 頁面顯示，Trae Agent 是一個基於 LLM 通用軟體工程任務的智能體。它提供了一個

07月07日 2521

vivo 韓伯嘯：X200 Ultra 手機全屏 AOD 在最後問題評估中

IT之家 7 月 7 日消息，vivo 通信科技有限公司產品經理韓伯嘯昨日發文表示，原計劃 X200 Ultra 手機 7 月影像新功能測試完要等中旬，部分影像新功能提前測試完先合入了 15.5 的正式版本；另外還有一些已經規劃在製作中的新功能，進度沒有完全明確。原文如下：原計劃 X200 Ultra 7 月影像新功能測試完要等中旬，現在有部分影...

07月07日 2072

vivo X200 Ultra 手機 7 月份升級速報發布

IT之家 7 月 7 日消息，vivo 官方昨日晚發布了 vivo X200 Ultra 手機 7 月份升級速報，該機本月新版本將更新全新相機風格、4D 遊戲振感等，同時還有拍攝效果、性能通信等多項體驗深度優化（版本 7 月內陸續推送）。IT之家整理 vivo X200 Ultra 手機 7 月更新內容如下：功能升級【相機風格】支持清透藍調風格。支持經典正片

07月07日 6308