2022年12月09日23:37:21 科技 1215

OpenAI是全球最著名的人工智慧研究機構，發布了許多著名的人工智慧技術和成果，如大語言模型GPT系列、文本生成圖片預訓練模型DALL·E系列、語音識別模型Whisper系列等。由於這些模型在各自領域都有相當驚艷的表現，引起了全世界廣泛的關注。本篇博客內容較長，因為涵蓋了過去7年OpenAI發布的重要技術成果！（原文詳情：

這是舊金山的先鋒大廈，也是OpenAI的辦公室所在地

OpenAI的創立歷史

OpenAI是由馬斯克（Elon Musk）等人於2015年在舊金山創立的一家非盈利的人工智慧研究公司，啟動資金就有10億美金，算是標準的富二代。正是由於」金錢「的力量，OpenAI的目標就是不受經濟回報的限制來推進數字智能造福人類。OpenAI建立的目標就是為了與其它機構合作，進行AI的相關研究，並開放研究成果以促進AI技術的發展。OpenAI也被認為是DeepMind的有力競爭者。但是，從GPT-2模型之後，OpenAI認為模型效果太好，可能會被用來做不好的事情，因此開始限制研究成果的」開放「，這一點被很多人吐槽。

2019年3月11日，OpenAI宣布從」非盈利（non-profit）「性質過度到」封頂（『capped』 for profit）「營利性，利潤上限為任何投資的100倍（創立了OpenAI LP公司）。也是這一年，微軟向該公司投資了10億美金，並獲得了OpenAI技術的商業化授權。從此，OpenAI的一些技術開始出現在微軟的產品和業務上。不過，OpenAI與微軟的合作其實從2016年就開始，2016年，微軟的雲服務Azure為OpenAI提供了大規模實驗的平台。Azure彼時已經為他們提供了帶有InfiniBand互連的K80 GPU的算力資源，以優化深度學習的訓練。2020年9月22日，OpenAI開始授權微軟使用他們的GPT-3模型，也是全球首個可以享受GPT-3能力的公司。

2020年6月11日，OpenAI發布了OpenAI API，這也是OpenAI第一個商業化產品。官方解釋了，他們認為開發商業產品是確保OpenAI有足夠資金繼續投入AI研究的有效手段。自此，OpenAI也正式開始商業化運作。官方也解釋了，使用API的方式提供模型而不是開源模型也將降低模型的使用門檻，畢竟對於中小企業來說，部署強大的AI模型所需要的成本可能更高。

OpenAI發布的技術簡史

OpenAI發布了很多人工智慧相關的技術，從工具到演算法到論文到模型，都有涉及。這裡將簡單介紹一下他們發布的相關研究成果。由於OpenAI的成立時間很短，我們將根據年份來說明OpenAI發布的主要技術成果。

2016年

2016年4月27日，OpenAI發布了他們的第一個項目——OpenAI Gym Beta，這是一個用來開發和比較不同強化學習演算法的工具。這個工具起初是OpenAI研究人員用來加速他們強化學習研究的，這個工具也是OpenAI第一個開放的成果。

2017年

2017年5月24日，OpenAI開源了一個重現強化學習演算法的工具——OpenAI Baselines。強化學習由於過程十分複雜且影響因素眾多，導致很多實驗難以復現。因此，OpenAI開源了這個工具，目標是提供用於正確的強化學習演算法實現的一些最佳實踐，以幫助大家提高強化學習的研究效率。OpenAI Baselines中第一個基線化的模型是DQN（Deep Q-Network）

2018年

2018年6月11日，OpenAI公布了一個在諸多語言處理任務上都取得了很好結果的演算法，即著名的GPT，這也是該演算法的第一個版本。GPT是第一個將transformer與無監督的預訓練技術相結合，其取得的效果要好於當前的已知演算法。這個演算法算是OpenAI大語言模型的探索性的先驅，也使得後面出現了更強大的GPT系列。

也是在2018年6月份，OpenAI宣布他們的OpenAI Five已經開始在Dota2遊戲中擊敗業餘人類團隊，並表示在未來2個月將與世界頂級玩家進行對戰。OpenAI Five使用了256個P100 GPUs和128000個CPU核，每天玩180年時長的遊戲來訓練模型。在隨後的幾個月里OpenAI Five詳情繼續公布。在8月份的專業比賽中，OpenAI Five輸掉了2場與頂級選手的比賽，但是比賽的前25-30分鐘內，OpenAI Five的模型的有著十分良好的表現。OpenAI Five繼續發展並在2019年4月15日宣布打敗了當時的Dota2世界冠軍。

2019年

2019年2月14日，OpenAI在博客《Better Language Models and Their Implications》中官宣GPT-2模型。也正是在這篇博客中，官方說到由於模型效果太好，他們擔心模型會被惡意使用，在沒有想好如何限制malicious applications之前是不會發布預訓練結果的。GPT-2模型有15億參數，基於800萬網頁數據訓練。GPT-2就是GPT的規模化結果，在10倍以上的數據以10倍以上的參數訓練。OpenAI在2月份GPT-2發布的時候僅僅公開了他們的1.24億版本的預訓練結果，其後的5月份發布了3.55億參數版本的預訓練結果，並在半年後的8月份發布了一個7.74億參數版本的GPT-2預訓練結果。2019年11月5日，15億參數的完整版本的GPT-2預訓練結果發布。

同年3月4日，OpenAI發布了一個用於強化學習代理的大規模多代理遊戲環境：Neural MMO。該平台支持在一個持久的、開放的任務中的存在大量的、可變的代理。許多代理和物種的加入導致了更好的探索，分歧的利基形成，以及更大的整體能力。

4月25日，OpenAI繼續公布他們最新的研究成果：MuseNet，這是一個深度神經網路，可以用10種不同的樂器生成4分鐘的音樂作品，並且可以結合從鄉村到莫扎特到披頭士的風格。這是OpenAI將生成模型從自然語言處理領域拓展到其它領域開始。

2020年

2020年4月14日，OpenAI發布了Microscope，這是一個用於分析神經網路內部特徵形成過程的可視化工具，也是OpenAI為了理解神經網路模型所作出的努力。

2020年5月28日，OpenAI的研究人員直接提交了論文《Language Models are Few-Shot Learners》，正式公布了GPT-3相關的研究結果，這也是當時全球最大的預訓練模型，參數1750億！GPT-3在論文中展示了強大的能力，但是如前面的版本一樣，官方沒有公布預訓練結果文件。但是，同年9月，GPT-3的商業化授權給了微軟。

同年6月17日，OpenAI發布了Image GPT模型，將GPT的成功引入計算機視覺領域。研究人員認為，transformer是與領域無關的，它們都是從序列中建模，因此計算機視覺領域依然可以使用。Image GPT也在當時取得了很好的成績！

2021年

2021年1月5日，OpenAI發布CLIP，它能有效地從自然語言監督中學習視覺概念。CLIP可以應用於任何視覺分類基準，只需提供要識別的視覺類別的名稱，類似於GPT-2和GPT-3的 "zero-shot "能力。這個模型是今年來多模態領域很有代表性的一項工作。

同一天，OpenAI發布了DALL·E模型，這也是一個具有很大影響力的模型，DALL·E是一個120億個參數的GPT-3版本，它被訓練成使用文本-圖像對的數據集，從文本描述中生成圖像。DALL·E可以創造動物和物體的擬人化版本，以合理的方式組合不相關的概念，渲染文本，以及對現有圖像進行轉換。DALL·E的發布再一次驚艷世人。

2021年8月10日，OpenAI發布了Codex。OpenAI Codex是GPT-3的後代；它的訓練數據既包含自然語言，也包含數十億行公開的源代碼，包括Github公共存儲庫中的代碼。OpenAI Codex就是Github Coplilot背後的模型。當然，Codex也沒有公布，而是OpenAI收費的API。

2022年

2022年1月27日，OpenAI發布了InstructGPT。這是比GPT-3更好的遵循用戶意圖的語言模型，同時也讓它們更真實，且less toxic，使用的技術是通過alignment研究開發的。這些InstructGPT模型是在人類的參與下訓練的，這是一個AI對話系統，也是OpenAI收費的API。

2022年3月15日，OpenAI新版本的GPT-3和Codex發布，新增了編輯和插入新內容的能力。也就是說除了之前的生成能力外，新增編輯和修改。

同年4月6日，DALL·E2發布，其效果比第一個版本更加逼真，細節更加豐富且解析度更高。DALL·E系列由於可以生成任意圖片內容，儘管官方做了很多努力阻止惡意結果產生，依然因為擔心而沒有放出。也許是因為開源的競爭產品如Stable Diffusion的壓力，2022年7月20日，OpenAI的API增加了一年前發布的DALL·E（注意不是V2版本）。

6月23日，OpenAI通過視頻預訓練（Video PreTraining，VPT）在人類玩Minecraft的大量無標籤視頻數據集上訓練了一個神經網路來玩Minecraft，同時只使用了少量的標籤數據。通過微調，該模型可以學習製作鑽石工具，這項任務通常需要熟練的人類花費超過20分鐘（24,000個動作）。它使用了人類原生的按鍵和滑鼠運動界面，使其具有相當的通用性，並代表著向通用計算機使用代理邁出了一步。

9月21日，OpenAI發布了Whisper，這是一個語音識別預訓練模型，結果逼近人類水平，支持多種語言。最重要的是，相比較很長不開源成果的其它模型，這是一個完全開源的模型，不過其參數也就15.5億。

11月30日，OpenAI發布ChatGPT系統，這是一個AI對話系統，其強大的能力也讓大家再次見識到了其強大的能力。ChatGPT在很多問題上近乎完美的表現使得它僅僅5天就有了100萬用戶。它可以幫助我們寫代碼、寫博客、解釋技術，可以多輪對話，寫短劇等等。

總結

OpenAI是人工智慧領域的明星公司。從馬斯克等人創辦開始就吸引了很多的目光。起初，其研究似乎主要是朝著強化學習努力。但是，隨著預訓練模型的崛起，他們在諸多領域的創新也讓大家見識到OpenAI的強大實力。OpenAI發布的很多模型和系統都具有令人驚訝的效果。儘管隨著其商業化進程的加速，免費開源的技術似乎變得稀有。但是，他們發布的技術引起了眾多的追隨者和競爭者。包括Meta AI、StabilityAI等競爭對手都發布了開源版本的兄弟模型。促進了AI領域的發展。

原文詳情：OpenAI介紹及其成果簡介 | 學習數據(Datalearner)