OpenAI是全球最著名的人工智慧研究機構,發布了許多著名的人工智慧技術和成果,如大語言模型GPT系列、文本生成圖片預訓練模型DALL·E系列、語音識別模型Whisper系列等。由於這些模型在各自領域都有相當驚艷的表現,引起了全世界廣泛的關注。本篇博客內容較長,因為涵蓋了過去7年OpenAI發布的重要技術成果!(原文詳情:
這是舊金山的先鋒大廈,也是OpenAI的辦公室所在地
OpenAI的創立歷史
OpenAI是由馬斯克(Elon Musk)等人於2015年在舊金山創立的一家非盈利的人工智慧研究公司,啟動資金就有10億美金,算是標準的富二代。正是由於」金錢「的力量,OpenAI的目標就是不受經濟回報的限制來推進數字智能造福人類。OpenAI建立的目標就是為了與其它機構合作,進行AI的相關研究,並開放研究成果以促進AI技術的發展。OpenAI也被認為是DeepMind的有力競爭者。但是,從GPT-2模型之後,OpenAI認為模型效果太好,可能會被用來做不好的事情,因此開始限制研究成果的」開放「,這一點被很多人吐槽。
2019年3月11日,OpenAI宣布從」非盈利(non-profit)「性質過度到」封頂(『capped』 for profit)「營利性,利潤上限為任何投資的100倍(創立了OpenAI LP公司)。也是這一年,微軟向該公司投資了10億美金,並獲得了OpenAI技術的商業化授權。從此,OpenAI的一些技術開始出現在微軟的產品和業務上。不過,OpenAI與微軟的合作其實從2016年就開始,2016年,微軟的雲服務Azure為OpenAI提供了大規模實驗的平台。Azure彼時已經為他們提供了帶有InfiniBand互連的K80 GPU的算力資源,以優化深度學習的訓練。2020年9月22日,OpenAI開始授權微軟使用他們的GPT-3模型,也是全球首個可以享受GPT-3能力的公司。
2020年6月11日,OpenAI發布了OpenAI API,這也是OpenAI第一個商業化產品。官方解釋了,他們認為開發商業產品是確保OpenAI有足夠資金繼續投入AI研究的有效手段。自此,OpenAI也正式開始商業化運作。官方也解釋了,使用API的方式提供模型而不是開源模型也將降低模型的使用門檻,畢竟對於中小企業來說,部署強大的AI模型所需要的成本可能更高。
OpenAI發布的技術簡史
OpenAI發布了很多人工智慧相關的技術,從工具到演算法到論文到模型,都有涉及。這裡將簡單介紹一下他們發布的相關研究成果。由於OpenAI的成立時間很短,我們將根據年份來說明OpenAI發布的主要技術成果。
2016年
2016年4月27日,OpenAI發布了他們的第一個項目——OpenAI Gym Beta,這是一個用來開發和比較不同強化學習演算法的工具。這個工具起初是OpenAI研究人員用來加速他們強化學習研究的,這個工具也是OpenAI第一個開放的成果。
2017年
2017年5月24日,OpenAI開源了一個重現強化學習演算法的工具——OpenAI Baselines。強化學習由於過程十分複雜且影響因素眾多,導致很多實驗難以復現。因此,OpenAI開源了這個工具,目標是提供用於正確的強化學習演算法實現的一些最佳實踐,以幫助大家提高強化學習的研究效率。OpenAI Baselines中第一個基線化的模型是DQN(Deep Q-Network)
2018年
2018年6月11日,OpenAI公布了一個在諸多語言處理任務上都取得了很好結果的演算法,即著名的GPT,這也是該演算法的第一個版本。GPT是第一個將transformer與無監督的預訓練技術相結合,其取得的效果要好於當前的已知演算法。這個演算法算是OpenAI大語言模型的探索性的先驅,也使得後面出現了更強大的GPT系列。
也是在2018年6月份,OpenAI宣布他們的OpenAI Five已經開始在Dota2遊戲中擊敗業餘人類團隊,並表示在未來2個月將與世界頂級玩家進行對戰。OpenAI Five使用了256個P100 GPUs和128000個CPU核,每天玩180年時長的遊戲來訓練模型。在隨後的幾個月里OpenAI Five詳情繼續公布。在8月份的專業比賽中,OpenAI Five輸掉了2場與頂級選手的比賽,但是比賽的前25-30分鐘內,OpenAI Five的模型的有著十分良好的表現。OpenAI Five繼續發展並在2019年4月15日宣布打敗了當時的Dota2世界冠軍。
2019年
2019年2月14日,OpenAI在博客《Better Language Models and Their Implications》中官宣GPT-2模型。也正是在這篇博客中,官方說到由於模型效果太好,他們擔心模型會被惡意使用,在沒有想好如何限制malicious applications之前是不會發布預訓練結果的。GPT-2模型有15億參數,基於800萬網頁數據訓練。GPT-2就是GPT的規模化結果,在10倍以上的數據以10倍以上的參數訓練。OpenAI在2月份GPT-2發布的時候僅僅公開了他們的1.24億版本的預訓練結果,其後的5月份發布了3.55億參數版本的預訓練結果,並在半年後的8月份發布了一個7.74億參數版本的GPT-2預訓練結果。2019年11月5日,15億參數的完整版本的GPT-2預訓練結果發布。
同年3月4日,OpenAI發布了一個用於強化學習代理的大規模多代理遊戲環境:Neural MMO。該平台支持在一個持久的、開放的任務中的存在大量的、可變的代理。許多代理和物種的加入導致了更好的探索,分歧的利基形成,以及更大的整體能力。
4月25日,OpenAI繼續公布他們最新的研究成果:MuseNet,這是一個深度神經網路,可以用10種不同的樂器生成4分鐘的音樂作品,並且可以結合從鄉村到莫扎特到披頭士的風格。這是OpenAI將生成模型從自然語言處理領域拓展到其它領域開始。
2020年
2020年4月14日,OpenAI發布了Microscope,這是一個用於分析神經網路內部特徵形成過程的可視化工具,也是OpenAI為了理解神經網路模型所作出的努力。
2020年5月28日,OpenAI的研究人員直接提交了論文《Language Models are Few-Shot Learners》,正式公布了GPT-3相關的研究結果,這也是當時全球最大的預訓練模型,參數1750億!GPT-3在論文中展示了強大的能力,但是如前面的版本一樣,官方沒有公布預訓練結果文件。但是,同年9月,GPT-3的商業化授權給了微軟。
同年6月17日,OpenAI發布了Image GPT模型,將GPT的成功引入計算機視覺領域。研究人員認為,transformer是與領域無關的,它們都是從序列中建模,因此計算機視覺領域依然可以使用。Image GPT也在當時取得了很好的成績!
2021年
2021年1月5日,OpenAI發布CLIP,它能有效地從自然語言監督中學習視覺概念。CLIP可以應用於任何視覺分類基準,只需提供要識別的視覺類別的名稱,類似於GPT-2和GPT-3的 "zero-shot "能力。這個模型是今年來多模態領域很有代表性的一項工作。
同一天,OpenAI發布了DALL·E模型,這也是一個具有很大影響力的模型,DALL·E是一個120億個參數的GPT-3版本,它被訓練成使用文本-圖像對的數據集,從文本描述中生成圖像。DALL·E可以創造動物和物體的擬人化版本,以合理的方式組合不相關的概念,渲染文本,以及對現有圖像進行轉換。DALL·E的發布再一次驚艷世人。
2021年8月10日,OpenAI發布了Codex。OpenAI Codex是GPT-3的後代;它的訓練數據既包含自然語言,也包含數十億行公開的源代碼,包括Github公共存儲庫中的代碼。OpenAI Codex就是Github Coplilot背後的模型。當然,Codex也沒有公布,而是OpenAI收費的API。
2022年
2022年1月27日,OpenAI發布了InstructGPT。這是比GPT-3更好的遵循用戶意圖的語言模型,同時也讓它們更真實,且less toxic,使用的技術是通過alignment研究開發的。這些InstructGPT模型是在人類的參與下訓練的,這是一個AI對話系統,也是OpenAI收費的API。
2022年3月15日,OpenAI新版本的GPT-3和Codex發布,新增了編輯和插入新內容的能力。也就是說除了之前的生成能力外,新增編輯和修改。
同年4月6日,DALL·E2發布,其效果比第一個版本更加逼真,細節更加豐富且解析度更高。DALL·E系列由於可以生成任意圖片內容,儘管官方做了很多努力阻止惡意結果產生,依然因為擔心而沒有放出。也許是因為開源的競爭產品如Stable Diffusion的壓力,2022年7月20日,OpenAI的API增加了一年前發布的DALL·E(注意不是V2版本)。
6月23日,OpenAI通過視頻預訓練(Video PreTraining,VPT)在人類玩Minecraft的大量無標籤視頻數據集上訓練了一個神經網路來玩Minecraft,同時只使用了少量的標籤數據。通過微調,該模型可以學習製作鑽石工具,這項任務通常需要熟練的人類花費超過20分鐘(24,000個動作)。它使用了人類原生的按鍵和滑鼠運動界面,使其具有相當的通用性,並代表著向通用計算機使用代理邁出了一步。
9月21日,OpenAI發布了Whisper,這是一個語音識別預訓練模型,結果逼近人類水平,支持多種語言。最重要的是,相比較很長不開源成果的其它模型,這是一個完全開源的模型,不過其參數也就15.5億。
11月30日,OpenAI發布ChatGPT系統,這是一個AI對話系統,其強大的能力也讓大家再次見識到了其強大的能力。ChatGPT在很多問題上近乎完美的表現使得它僅僅5天就有了100萬用戶。它可以幫助我們寫代碼、寫博客、解釋技術,可以多輪對話,寫短劇等等。
總結
OpenAI是人工智慧領域的明星公司。從馬斯克等人創辦開始就吸引了很多的目光。起初,其研究似乎主要是朝著強化學習努力。但是,隨著預訓練模型的崛起,他們在諸多領域的創新也讓大家見識到OpenAI的強大實力。OpenAI發布的很多模型和系統都具有令人驚訝的效果。儘管隨著其商業化進程的加速,免費開源的技術似乎變得稀有。但是,他們發布的技術引起了眾多的追隨者和競爭者。包括Meta AI、StabilityAI等競爭對手都發布了開源版本的兄弟模型。促進了AI領域的發展。
原文詳情:OpenAI介紹及其成果簡介 | 學習數據(Datalearner)