文 | 王智遠
凌晨1點,我還在追劇。
這時,朋友發來一條消息說:open ai發布了新模型,你在電腦上試試看能用嗎?哎,大哥,都要睡覺了,這要強制開機,讓我起來加班碼字啊。
帶著好奇,打開pc端chatgpt一看,果然,多出兩個模型,分別是chatgpt 01-mini和01-preview。
這是什麼東東?怎麼叫這個名字?這個模型有什麼特點?怎麼還有兩個版本呢?價位如何?難道是此前被傳的「草莓」做出來了?
帶著疑惑,熬夜看完官方文檔,把內容總結分享給你。
01
為什麼叫01呢?官方說:
for complex reasoning tasks this is a significant advancement and represents a new level of ai capability. given this, we are resetting the counter back to 1 and naming this series openai o1。
我用自帶瀏覽器的翻譯功能,翻譯出來就是:
這個模型在複雜推理任務上是一個重大的進步,代表了人工智慧能力的一個新水平;因此,我們決定重新開始編號,把這一系列模型命名為openai 01。
襖,原來因為這個模型非常厲害,能做很多複雜的事情,openai 覺得這是一個新的起點,所以把編號重新設為1,開始一個新的系列。
那麼,它為什麼會有兩個版本呢?官方說:
o1 mini版是個簡化的版本。它在速度、體積和成本方面都做了優化。
這個版本在處理數學、編程推理任務時表現不錯,特別適合需要快速處理問題的場合;因為它體積小,成本也低,所以,如果你想快速得到答案,那麼o1 mini版可能更適合你。
相對01 preview版,是完整版本。
比較擅長解決複雜的問題,比如,無論是科學問題、數學題還是編程,它都能處理得非常好;當然,如果你遇到的問題要廣泛的知識或者深刻的理解,那麼這個版本更適合你,因為它的推理能力非常強大。
我不信,於是,讓國產大模型kimi chat給我想了一個邏輯數學邏輯題,如下:
假設我有一個農場,裡面有雞和兔子。有一天,我數了數農場里動物的頭和腳,發現總共有35個頭和94隻腳。請問,農場里各有多少只雞和兔子?
preview版的確很強。除了告訴我有23隻雞,和12隻兔子外,還給出了步驟,整個下來,也就不到2秒。當然,這種測試用來對付chat肯定是無壓力的,如果你有時間,也可以帶入工作中的問題,自己體驗下。
總的來說,兩個版本的主要區別是它們處理任務的能力、速度和成本;o1 mini版在速度、成本上有優勢;preview版更適合推理。
不過,實際體驗下來,沒覺得有什麼差異,也許我本身要它做的事情,比較簡單。
體驗完後,仔細一想,這和gpt-4o、gpt-4omini有啥區別呢?非要搞出四個模型嗎?加上gpt-4,我電腦上已經有五個模型了。
查了下官方文檔,有一篇文章叫《用法學碩士學習推理》(learning to reason with llms)詳細介紹了一切。
他們是這麼說的:
在對openai的兩個ai模型——o1-preview和gpt-4o的實際使用偏好測試中,人類評估者在不知情的情況下,比較了兩個模型對複雜問題的回答。
結果顯示,在需要大量推理的任務上,比如數據分析、編程和數學問題,大家更喜歡o1-preview。因為o1-preview經過特殊的強化學習訓練,所以,在解決這類問題時,推理能力更強,更高效。
但是,在自然語言處理任務上,o1-preview的表現不如gpt-4o。這是因為它的訓練重點在推理和解決問題的策略上,而不是在語言的流暢度或文本生成的多樣性上。
這說明,雖然o1-preview在某些領域很出色,但它並不適合所有類型的任務,尤其是那些專註於自然語言處理的場景。
原來如此。
我又看了看o1-preview和o1 mini版適合哪些人。官方說,如果你在處理科學、編碼、數學等領域的複雜問題,這些增強的推理能力可能特別有用。
比如:
醫療研究人員可以用o1來標註細胞測序數據;物理學家可以生成量子光學所需的複雜數學公式;各個領域的開發者都可以用o1來構建和執行多步的工作流程。
所以,如果你做科學、敲代碼、編程、數學方面的工作,用它再好不過了。
02
那麼,o1-preview和o1 mini到底做了哪些測試呢?
首先,為了顯示o1模型在推理方面比gpt-4o有多大改進,他們在不同的人體檢查和機器學習基準上測試了它。
比如:
在2024年的aime數學考試中,gpt-4o平均只解決了12%的題目;而o1模型單次測試的平均解題率達到了74%。如果算上64次測試的平均得分,能達到83%;重新從1000個樣本中排名,平均得分甚至可以達到93%。
這個成績不僅讓它進入了全美前500名,還超過了參加美國數學奧林匹克的分數線。
他們還用一個叫做gpqa鑽石的難題來測試o1。這個測試涉及化學、物理和生物學的專業知識。
他們請了一些擁有博士學位的專家來回答這些問題,結果發現,o1模型的表現超過了人類專家,成為第一個在這個測試中取得這樣成績的模型。
這並不意味著o1在所有方面都比博士更厲害,而是說明它在解決某些專業問題上更為熟練。
當然,在其他一些機器學習的測試中,他們也做了大量測試;它在mmmu的視覺感知測試中得了78.2分,成為第一個能和人類專家競爭的模型;而且,在57個mmlu子測試中的54個項目上,它的表現都優於gpt-4o。
我好奇地搜索了一下,什麼是 mmlu?簡單講,mmlu 像一場大型的綜合考試,參加考試的不是人類,而是人工智慧模型。
總之,這些測試最終結論是:
openai的o1模型在全球編程比賽codeforces中排名第89位,在美國數學奧林匹克(aime)的資格賽中,進入了全美前500名。
在物理、生物學和化學問題的測試中,它的表現甚至超過了博士水平。
因此,o1-preview和o1 mini在解決高難度的推理和專業問題上表現更出色;而gpt-4o更適合處理日常的任務。
03
所以,這麼強的推理能力怎麼實現的?關鍵有四個方面:
首先,o1模型用了一種「自我對弈強化學習」(self-play rl)的方法;這是一種通過模擬環境和自我對抗來提升模型性能的技術。
這種方法中,模型在沒有外部指導,通過不斷嘗試和錯誤來學習策略和優化決策。
想像一下:
它就像在和自己下棋,一邊玩一邊學;過程中,不用別人教,自己試試、出錯、再試,慢慢就學會了怎樣做決策和解決問題。
其次,o1還模仿了人類的「慢思考」(slow thinking);這種思考要時間、努力和邏輯三者結合,就像我們在考試時仔細思考一個難題一樣。
通過深思熟慮方式,o1先分析問題,然後把它拆開,再推理,再解決;這讓它在科學、編程或數學上更精準,更出色。
當然,這一步離不開思維鏈。
思維鏈的推理,還用一種獨特的方法來監控模型。如果這些思維鏈是可讀的,研發人員就能「讀懂」模型的思考過程。
這對於監測模型是否能操縱用戶行為非常有幫助,但是,為了讓模型能自由地表達思考,他們不在模型中加入任何與政策、用戶偏好相關的硬性規定。
因此,這個模型整合了安全政策和人類價值觀,過在模型的答案中重現思維鏈中的有用想法,讓用戶間接了解模型的思考過程。
還有一點,思維鏈加入了魯棒性(robustness)測試。所謂魯棒性指一個系統、模型或者設備在面對各種意外情況、干擾或者變化時,仍然能夠正常工作,不容易出問題。
比如:
一輛汽車,無論在高溫、低溫、下雨還是顛簸的路面上,都能正常行駛,這說明它的魯棒性很好;在ai領域,魯棒性指軟體、模型在面對不同的數據輸入、錯誤,甚至惡意攻擊時,仍然能保持穩定和準確。
所以,魯棒性強調的是在各種複雜、多變的環境下,仍然能保持可靠和穩定的性能。
除以上兩點,o1在訓練時還用上了數據飛輪(data flywheel);它的正確答案會被用來再訓練它自己,幫助它變得更聰明。
當然,為支持這些複雜的思考任務,o1還用上了一些特別優化的演算法、架構。這些技術讓它更快、更準確地解決問題,提高了它的整體能力。
總之,o1模型訓練關注五個維度:
一,自我對弈強化學習、二,模仿人類慢思考、三,拆解了思維鏈的過程;四,在思維鏈中加入了魯棒性測試;五,數據飛輪再強化。
看完官網文檔,說白了,我覺得他們讓ai更像人了。
04
再強大的東西,不商業化肯定不行。那麼,o1模型的成本和使用限制有哪些呢?
o1-preview的價格是:
每處理一百萬個輸入要花15美元,每處理一百萬個輸出則是60美元;這說明,如果你用這個版本,輸入和輸出的處理費用會比較高。
真貴啊。這是什麼概念?舉個例子:
如果你每天和這個模型聊天100次,每次輸入1000個單詞,那麼一天的費用是75美分乘以100次,等於75美元。按照現在匯率,75美元大概等於540人民幣。
這樣看來,使用這個模型的成本相當於每天花540塊錢。如果你每天都這麼使用,一個月下來的花費就非常可觀了,堪比請一個專家了。
而o1-mini的價格便宜一些。
每一百萬個輸入只需3美元,每一百萬個輸出12美元。但這個便宜版在功能上可能會有些限制;如果你是chatgpt plus或team的用戶,就可以優先嘗試o1模型的功能。
對開發者來說,要求就嚴格多了,只有支付了1000美元的五級開發者才能用這個模型,而且每分鐘只能調用20次。
至於api的調用限制,o1-preview每周只能調用30次,o1-mini每周可以調用50次。這種限制是按周來算的,不是按小時或分鐘。
功能方面,目前的o1模型還不能支持所有的功能,比如理解圖片、生成圖片、解釋代碼、網頁搜索等。所以,用戶現在只能用它來進行基本的對話。
官方還說:
雖然現在o1模型成本較高,使用也有限,但隨著技術發展和openai的不斷改進,預計將來會有更多用戶能使用到這個模型,成本也可能會降低。
不管怎能說,ai越來越像人一樣「深思熟慮」了,至於這個模型,誰會付費呢?誰又能為它支付1000美金呢?或許,只有大公司、研究機構、有特定需求的專業人士才能承擔得起。
那到時候,真就成了花錢請了一個「ai專家」,所以,ai會替代專家嗎?
總結
越來越像人的模型。
誰也猜不到,未來的o1-preview(mini)會發展成什麼樣,至少,它肯定不會是個普通的gpt。
它會發展成具身智能嗎?有這個可能。隨著技術不斷進步,o1-preview(mini)很大概率會改變一些行業的運作方式。