對話OpenAI研究科學家:他們是如何讓GPT4更像人的?

chatgpt不是一次偉大創新的產物,而是許多個階段性創新持續疊加的結果。

文 | aparna dhinakaran

究竟是怎樣的大腦創造出了跨時代的chatgpt?作為chatgpt的姊妹模型,instructgpt的核心技術和chatgpt有很多相通之處。

近期,美國ai可觀察性平台arize ai採訪了openai的兩位研究科學家歐陽龍 (long ouyang) 和ryan lowe,他們是instructgpt(採用人類反饋的強化學習 (rlhf) 訓練大型語言模型的首批主要應用之一)的創造者,在rlhf模型的演變和為gpt-4奠基方面發揮了重要作用。

以下是對話中的一些要點。

圖源:ai pub, arize ai

開發instructgpt背後的動機是什麼?gpt-3的哪些問題啟發了instructgpt的誕生?

歐陽龍:我認為我們試圖解決的一個主要問題是,當gpt-3問世時,人們對用它來做有用的認知工作感到過於興奮,例如總結一篇新聞文章。但它的設計初衷並不是為了做這個,而是為了預測互聯網上的人在特定環境下可能會說什麼。事實證明,你可以通過設置文本來誘使模型為你執行有用的工作,當模型自動完成任務時,它可以給你你想要的東西。

因此,就摘要來說,一個例子是,也許你需要先給出一篇文章中的幾個事例,然後是文章的摘要,最後是你想要獲得摘要的文章和要點總結,然後你要求他們完成概括。所以這個模型並不是被設計成一個助手或有用的工具,但在某些情況下你可以把它用作這個用途。這篇文本或者說這個項目的總體目標就是在一個目標函數上對模型進行微調,使其成為一個有用的助手或工具——直到今天也依然如此。這來自於一些早期的工作,我們稱之為調整語言模型。

對了,ryan,你想談談openai的調整問題嗎?

ryan lowe:人們對調整有不同的定義。但你可以使用的一個定義是,如何讓我們正在訓練的人工智能系統優化我們實際上想要優化的東西?

從歷史上看,它始於一個小團隊,這就是最初早期rlhf工作發揮作用的地方。後來我們有了一個短期的調整團隊,主要負責用現有的語言模型來優化我們真正想要優化的東西,讓我們的目標變得有用、有幫助,同時也可以減輕危害,遵循事實。還有一些關於長期調整的工作,試圖思考可能出現的新的調整問題。因此,未來還可能出現一些關於可擴展的監管和其他一些事情的工作。

你能對instructgpt做一個簡短的推薦或者對其做一個總結嗎?

歐陽龍:這是一個自動化的系統,你提供一些文本作為輸入,它也會提供一些文本作為輸出。這些是我們所說的標記的概率分佈,一個標記是單詞的一部分,有時是整個單詞,然後通過在每個階段抽樣出下一個可能的標記,然後繼續這個過程,直到得到你目標的產出。所以有時候你會得到不同的結果,因為這個模型有一點概率性。

重要的是,你給這個模型的輸入只是一個自然語言命令或指令,比如「用法語寫一個關於青蛙的故事」,又因為它在各種不同的任務上接受過訓練,所以它可以概括兩個任務,第一個任務是使用法語,第二個任務是寫一個關於青蛙的故事,我想這是在訓練中他不會遇到的。

為了強調指令模型和早期香草語言模型之間的區別,指令模型「理解」你給了它一些明確的認知任務,同時你用語言明確地給出了這些指令;而在之前的模型之下,通過模型交流的方式,你想要完成的任務可能是通過一些例子或一種更含蓄的方式。

ryan lowe:從高層次上講,我們實現這一目標的方式基本上是利用人類數據。通過使用數據標註者——我們僱傭了一組承包商為我們標記數據,我們在正常的語言模型預訓練階段上做了一個額外的微調階段。

這些數據標註者產生的主要數據之一是給定一些輸入,如"寫一個關於青蛙的故事"有多個候選輸出,由不同的模型生成,而標註者會根據一些指令集和他們對指令的解釋,將這些輸入從最佳輸出到有效輸出進行排序。然後我們使用強化學習來訓練模型,以試圖產生更接近人類偏好或排名較高的輸出。

為什麼要訓練獎勵模型呢?為什麼要在第一步進行監督微調?

歐陽龍:也許我們會從獎勵模式開始,因為這是我們的方法中真正關鍵的部分。有了ryan之前提到的那種數據,即數據標註者給出了他們的偏好,比如關於青蛙的故事,我們就會用這些數據來訓練一個非常大的神經網絡,我們稱之為獎勵模型。

你可以把獎勵模式想像成電子遊戲中的分數或一個老師。獎勵模型的輸入是指令和輸出,它返回一個分數,這個分數會告訴你的輸出有多好。如果這個分數不錯,就意味着關於青蛙的故事是個好故事,如果這個分數很低,就意味着關於青蛙的故事是個爛故事。我們根據人類的判斷來訓練這個獎勵模型,所以這個大模型有點像近似於人們認為在寫青蛙故事或總結新聞文章或其他方面的一個好嘗試。然後當我們訓練一個完全不同的模型,我們也能根據獎勵模型來做得更好。

因此,我們的方法的重要之處在於,我們沒有採用其他方法,而是明確地學習了人們對一項任務的良好表現的看法。然後,我們單獨優化一個神經網絡,使其根據該表徵完成一項好工作。因此,這就是從人類反饋中進行的實質性強化學習。

我們正在做強化學習,因為我們試圖根據一個模型去構建另一個完全不同的但能很好運行的新模型。然後人類的反饋部分來自老師或分數模型,這些模型經過訓練,可以預測人類的偏好。這就是這個方法的核心,然後,為了引導一堆數據,我們又做了所謂的監督學習或監督微調,在那裡,我們實際上只是要求他們直接製作所謂的示範,而不是讓人們對已經寫好的青蛙的故事給出他們的偏好。所以,他們自己被要求用法語寫一個關於青蛙的故事,我們訓練模型模仿他們在這些情況下使用的單詞。這對引導數據很有用,但對rlhf方法來說不一定是必需的。

open ai研究科學家歐陽龍,圖源:ai pub

你是否看到其他主要的應用程序跳過了第一步?

歐陽龍:我們有時還會這樣做,我想有一點是,現在少數的片段提示已經變得很有競爭力了。因此,你有時可以跳過收集演示,因為從模型的幾個片段的輸出已經是可以接受的,或者說是已經足夠好,以至於沒有必要進行單獨的監督微調。

ryan lowe:一種思考方法是,rlhf幫助您獲得更細粒度的模型行為調優,而監督式調優和收集演示可以更徹底地改變模型行為。例如,假設你有一個模型,它在生成摘要方面很糟糕。在不同的糟糕摘要之間獲得一堆排名反饋並不是最有用的。所以你要做的是收集一些非常好的總結的例子,然後讓你的模型試着模仿一下。實際上,這是一個經驗問題,什麼時候最好從收集演示轉換到收集比較或排名數據。我們在另一篇論文中對此有一些結果但這仍然是一個非常開放的問題。

你是怎麼想到instructgpt這個主意的?這個想法是如何出現的,以及這個項目是如何在openai中出現的?

歐陽龍:我們實際上已經研究這個方法有一段時間了,只是動機略有不同。調整團隊通常感興趣的不一定是使模型更好,儘管有時確實會產生副作用,但最終目的是使它們更符合我們想要的。因此,在之前的幾篇論文中,我們將這種方法應用於更窄的領域,看看它是否有效。緊跟着gpt-3通過api部署到公眾面前,團隊的一些成員想到將我們在以前的論文中開發的對齊技術應用到這個新模型上,我們現在正在為公眾服務。

ryan lowe: 最初寫谷歌文件提出這個建議的人是paul chirstiano,他當時是調整團隊的負責人。

很多人都在議論下一代語言模型將會非常強大。這是否會帶來有趣的挑戰,或者是否有新的方法來適應這種挑戰並處理這些更強大的語言模型?你想把這項工作推進到哪裡?

ryan lowe:我們有一個內容政策,說我們不希望模型生成代碼來入侵銀行或做其他類似的違法亂紀的事情,但我們發現實際上它有可能被犯罪分子用來編寫代碼來入侵銀行。現在我們有一個艱難的過程來引導事情朝着不這樣做的方向發展,但在可靠性和耐久性方面仍然存在差距。所以我們只能繼續擁有我們的技術,讓它們變得更好,這樣如果你發現一些偏差,你可以迅速修復它。

anthropic最近發表了一些關於使用模型來幫助這個過程的論文,非常有趣。我特別感興趣的一件事是超越了本質上與平均標籤者設立的框架。當我們開始問:你在根據誰在調整這些模型時,將會有一些非常棘手的問題。現在基本上是我們的標籤員加上我們通過一組指令讓他們遵循。但openai並不想處在這樣一個道德獨裁者的位置,即我們來決定怎麼做是正確的,以及什麼是正確的價值觀。因此,駕馭這個問題將是一個挑戰,涉及到機器學習的干預,但也涉及到更廣泛的社會技術角度。

open ai研究科學家ryan lowe,圖源:ai pub

隨着語言模型變得越來越強大,這類研究是否會出現有趣的問題或新的挑戰和新的方向?

歐陽龍:其中一個問題是,如果這些模型非常強大,那麼僅僅是進行這些比較判斷就會變得更加困難。因此,我們想要給出一個強大模型的任務示例是:為github上的這個拉拽請求編寫代碼審查。現在的模型還不能做到這一點,但你可以想像,在一兩年內,更有能力的模型可能就能做到,這絕對是我們希望機器學習幫助解決的事情。數據標籤承包商評估模型編寫的代碼的時間可能非常長,也可能他們根本無法做到這一點。

因此,在使用模型處理的事情超過個人評估模型的能力時,一個非常突出的挑戰是,當模型在大量不同的事情上非常強大的時候,那麼評判他們做得是否很好就會相當不容易。這是一個構建其他人工智能模型幫助人們評估其他機器學習系統的新領域。

ryan lowe:我同意歐陽龍所說的,我唯一想補充的是關於長期的一致性研究;這些系統會根據你的程序來優化。因此,如果他們優化的是人類在做排名時哪些排名靠前的東西,那麼你所優化的就是產生對人類來說聽起來不錯的輸出。隨着模型變得越來越強大,有可能在優化過程中,他們會發現有趣的或棘手的或具有欺騙性的(也許有待商榷)方法來產生高分的輸出,而這實際上不是我們想要的輸出。我認為我們還沒有完全做到,但至少這是我們想要關注的事情。

至於如何緩解這種情況,有歐陽龍談到的各種方法,也就是你有其他人工智能模型來幫助你評估輸出——這就是我談到的可擴展的監督研究風格。因此,人們正在研究更多的可解釋性問題,比如:我們能否嘗試理解一個模型內部發生了什麼? 這是另一個調整研究的思路。我們什麼時候能夠實現它還很難說,但這是值得思考的。

你剛剛提到有人在觀察模型內部發生的事情。你能指出你最近在這個領域看到的任何有趣的外部事物嗎?

ryan lowe:我還沒有深入研究這方面的文獻,但從我所看到的和略讀到的資料來看,anthropic在可解釋性方面的研究非常有趣。他們正在研究較小規模的轉換器,試圖了解裏面到底發生了什麼。

歐陽龍:對於建立語言模型所做的工作來說,有一些補充工作是以一種更可觀察的方式進行的。anthropic對於「監督語言模型所做的過程,而不是結果」這個想法很感興趣,就像我們一樣。因此,這裡的想法可能是把一個大任務分解成一堆小的組件,而你可能對其中的一些組成部分比對整個端到端的訓練過程有更好的把握。

這是訓練的一部分還是最後的微調?

歐陽龍:我一直以來在人們編寫程序時也看到過這種情況。有一個名為ought的研究小組,也為學術論文建立了一個所謂的文獻審查助手。他們已經使用這種技術來構建他們的語言模型輔助閱讀複習工具。到目前為止我看到的例子都是這樣的,但是思考如何分解訓練是很有趣的。

要進一步了解這篇論文或者了解你更廣泛的工作,你有什麼建議嗎?

ryan lowe:我認為人們可能已經在這麼做了,但如果你還沒有,不妨嘗試一下這些模型,對它能做什麼和不能做什麼有一個直覺的了解。要特別去留意那些你試圖讓它做,而它卻沒有做的事情。我們正在做調整工作,但你也可以考慮為一個非常具體的用例進行調整的工作。

此外,也許人們還可以發展出一點好奇心,思考如果我們有gpt7會發生什麼,因為已經有人在思考這些更長期的調整問題。我們專註於長期調整方面的同事寫了一篇關於批判的論文,同時他還訓練語言模型來批判,這算是在可擴展的調整問題中的一個步驟。

歐陽龍:我也建議你試試instructgpt。這是一個公開的模型,你可以在beta.openai.com上得到一些免費的點數來玩,這一點並沒有很多人知道。

ryan lowe:是的,這很有趣,因為底層的gpt 3.5從去年早些時候就已經可以使用了,但是只有當人們免費使用它,而且是以助手的形式,它才真正流行起來。去試試instructgpt吧,在某些方面它比chatgpt更好,但在某些方面又比chatgpt更差。■

本文作者是arize ai聯合創始人兼cpo、福布斯撰稿人,文章內容僅代表作者本人觀點。本文譯自

https://www.forbes.com/sites/aparnadhinakaran/2023/03/27/ten-questions-with-openai-on-reinforcement-learning-with-human-feedback

福布斯中國獨家稿件,未經許可,請勿轉載

頭圖來源:視覺中國

關注《福布斯》微信公眾號

精彩資訊永不錯過

微信公眾號近期改版啦 

 星標⭐ 「福布斯」

 第一時間獲取最新推送 

長按圖片掃碼下載福布斯中文版app