Open AI發布新一代模型01

2024年09月13日10:50:12 科技 6461

文 | 王智遠

凌晨1點，我還在追劇。

這時，朋友發來一條消息說：open ai發布了新模型，你在電腦上試試看能用嗎？哎，大哥，都要睡覺了，這要強制開機，讓我起來加班碼字啊。

帶著好奇，打開pc端chatgpt一看，果然，多出兩個模型，分別是chatgpt 01-mini和01-preview。

這是什麼東東？怎麼叫這個名字？這個模型有什麼特點？怎麼還有兩個版本呢？價位如何？難道是此前被傳的「草莓」做出來了？

帶著疑惑，熬夜看完官方文檔，把內容總結分享給你。

01

為什麼叫01呢？官方說：

for complex reasoning tasks this is a significant advancement and represents a new level of ai capability. given this, we are resetting the counter back to 1 and naming this series openai o1。

我用自帶瀏覽器的翻譯功能，翻譯出來就是：

這個模型在複雜推理任務上是一個重大的進步，代表了人工智慧能力的一個新水平；因此，我們決定重新開始編號，把這一系列模型命名為openai 01。

襖，原來因為這個模型非常厲害，能做很多複雜的事情，openai 覺得這是一個新的起點，所以把編號重新設為1，開始一個新的系列。

那麼，它為什麼會有兩個版本呢？官方說：

o1 mini版是個簡化的版本。它在速度、體積和成本方面都做了優化。

這個版本在處理數學、編程推理任務時表現不錯，特別適合需要快速處理問題的場合；因為它體積小，成本也低，所以，如果你想快速得到答案，那麼o1 mini版可能更適合你。

相對01 preview版，是完整版本。

比較擅長解決複雜的問題，比如，無論是科學問題、數學題還是編程，它都能處理得非常好；當然，如果你遇到的問題要廣泛的知識或者深刻的理解，那麼這個版本更適合你，因為它的推理能力非常強大。

我不信，於是，讓國產大模型kimi chat給我想了一個邏輯數學邏輯題，如下：

假設我有一個農場，裡面有雞和兔子。有一天，我數了數農場里動物的頭和腳，發現總共有35個頭和94隻腳。請問，農場里各有多少只雞和兔子？

preview版的確很強。除了告訴我有23隻雞，和12隻兔子外，還給出了步驟，整個下來，也就不到2秒。當然，這種測試用來對付chat肯定是無壓力的，如果你有時間，也可以帶入工作中的問題，自己體驗下。

總的來說，兩個版本的主要區別是它們處理任務的能力、速度和成本；o1 mini版在速度、成本上有優勢；preview版更適合推理。

不過，實際體驗下來，沒覺得有什麼差異，也許我本身要它做的事情，比較簡單。

體驗完後，仔細一想，這和gpt-4o、gpt-4omini有啥區別呢？非要搞出四個模型嗎？加上gpt-4，我電腦上已經有五個模型了。

查了下官方文檔，有一篇文章叫《用法學碩士學習推理》（learning to reason with llms）詳細介紹了一切。

他們是這麼說的：

在對openai的兩個ai模型——o1-preview和gpt-4o的實際使用偏好測試中，人類評估者在不知情的情況下，比較了兩個模型對複雜問題的回答。

結果顯示，在需要大量推理的任務上，比如數據分析、編程和數學問題，大家更喜歡o1-preview。因為o1-preview經過特殊的強化學習訓練，所以，在解決這類問題時，推理能力更強，更高效。

但是，在自然語言處理任務上，o1-preview的表現不如gpt-4o。這是因為它的訓練重點在推理和解決問題的策略上，而不是在語言的流暢度或文本生成的多樣性上。

這說明，雖然o1-preview在某些領域很出色，但它並不適合所有類型的任務，尤其是那些專註於自然語言處理的場景。

原來如此。

我又看了看o1-preview和o1 mini版適合哪些人。官方說，如果你在處理科學、編碼、數學等領域的複雜問題，這些增強的推理能力可能特別有用。

比如：

醫療研究人員可以用o1來標註細胞測序數據；物理學家可以生成量子光學所需的複雜數學公式；各個領域的開發者都可以用o1來構建和執行多步的工作流程。

所以，如果你做科學、敲代碼、編程、數學方面的工作，用它再好不過了。

02

那麼，o1-preview和o1 mini到底做了哪些測試呢？

首先，為了顯示o1模型在推理方面比gpt-4o有多大改進，他們在不同的人體檢查和機器學習基準上測試了它。

比如：

在2024年的aime數學考試中，gpt-4o平均只解決了12%的題目；而o1模型單次測試的平均解題率達到了74%。如果算上64次測試的平均得分，能達到83%；重新從1000個樣本中排名，平均得分甚至可以達到93%。

這個成績不僅讓它進入了全美前500名，還超過了參加美國數學奧林匹克的分數線。

他們還用一個叫做gpqa鑽石的難題來測試o1。這個測試涉及化學、物理和生物學的專業知識。

他們請了一些擁有博士學位的專家來回答這些問題，結果發現，o1模型的表現超過了人類專家，成為第一個在這個測試中取得這樣成績的模型。

這並不意味著o1在所有方面都比博士更厲害，而是說明它在解決某些專業問題上更為熟練。

當然，在其他一些機器學習的測試中，他們也做了大量測試；它在mmmu的視覺感知測試中得了78.2分，成為第一個能和人類專家競爭的模型；而且，在57個mmlu子測試中的54個項目上，它的表現都優於gpt-4o。

我好奇地搜索了一下，什麼是 mmlu？簡單講，mmlu 像一場大型的綜合考試，參加考試的不是人類，而是人工智慧模型。

總之，這些測試最終結論是：

openai的o1模型在全球編程比賽codeforces中排名第89位，在美國數學奧林匹克（aime）的資格賽中，進入了全美前500名。

在物理、生物學和化學問題的測試中，它的表現甚至超過了博士水平。

因此，o1-preview和o1 mini在解決高難度的推理和專業問題上表現更出色；而gpt-4o更適合處理日常的任務。

03

所以，這麼強的推理能力怎麼實現的？關鍵有四個方面：

首先，o1模型用了一種「自我對弈強化學習」（self-play rl）的方法；這是一種通過模擬環境和自我對抗來提升模型性能的技術。

這種方法中，模型在沒有外部指導，通過不斷嘗試和錯誤來學習策略和優化決策。

想像一下：

它就像在和自己下棋，一邊玩一邊學；過程中，不用別人教，自己試試、出錯、再試，慢慢就學會了怎樣做決策和解決問題。

其次，o1還模仿了人類的「慢思考」（slow thinking）；這種思考要時間、努力和邏輯三者結合，就像我們在考試時仔細思考一個難題一樣。

通過深思熟慮方式，o1先分析問題，然後把它拆開，再推理，再解決；這讓它在科學、編程或數學上更精準，更出色。

當然，這一步離不開思維鏈。

思維鏈的推理，還用一種獨特的方法來監控模型。如果這些思維鏈是可讀的，研發人員就能「讀懂」模型的思考過程。

這對於監測模型是否能操縱用戶行為非常有幫助，但是，為了讓模型能自由地表達思考，他們不在模型中加入任何與政策、用戶偏好相關的硬性規定。

因此，這個模型整合了安全政策和人類價值觀，過在模型的答案中重現思維鏈中的有用想法，讓用戶間接了解模型的思考過程。

還有一點，思維鏈加入了魯棒性（robustness）測試。所謂魯棒性指一個系統、模型或者設備在面對各種意外情況、干擾或者變化時，仍然能夠正常工作，不容易出問題。

比如：

一輛汽車，無論在高溫、低溫、下雨還是顛簸的路面上，都能正常行駛，這說明它的魯棒性很好；在ai領域，魯棒性指軟體、模型在面對不同的數據輸入、錯誤，甚至惡意攻擊時，仍然能保持穩定和準確。

所以，魯棒性強調的是在各種複雜、多變的環境下，仍然能保持可靠和穩定的性能。

除以上兩點，o1在訓練時還用上了數據飛輪（data flywheel）；它的正確答案會被用來再訓練它自己，幫助它變得更聰明。

當然，為支持這些複雜的思考任務，o1還用上了一些特別優化的演算法、架構。這些技術讓它更快、更準確地解決問題，提高了它的整體能力。

總之，o1模型訓練關注五個維度：

一，自我對弈強化學習、二，模仿人類慢思考、三，拆解了思維鏈的過程；四，在思維鏈中加入了魯棒性測試；五，數據飛輪再強化。

看完官網文檔，說白了，我覺得他們讓ai更像人了。

04

再強大的東西，不商業化肯定不行。那麼，o1模型的成本和使用限制有哪些呢？

o1-preview的價格是：

每處理一百萬個輸入要花15美元，每處理一百萬個輸出則是60美元；這說明，如果你用這個版本，輸入和輸出的處理費用會比較高。

真貴啊。這是什麼概念？舉個例子：

如果你每天和這個模型聊天100次，每次輸入1000個單詞，那麼一天的費用是75美分乘以100次，等於75美元。按照現在匯率，75美元大概等於540人民幣。

這樣看來，使用這個模型的成本相當於每天花540塊錢。如果你每天都這麼使用，一個月下來的花費就非常可觀了，堪比請一個專家了。

而o1-mini的價格便宜一些。

每一百萬個輸入只需3美元，每一百萬個輸出12美元。但這個便宜版在功能上可能會有些限制；如果你是chatgpt plus或team的用戶，就可以優先嘗試o1模型的功能。

對開發者來說，要求就嚴格多了，只有支付了1000美元的五級開發者才能用這個模型，而且每分鐘只能調用20次。

至於api的調用限制，o1-preview每周只能調用30次，o1-mini每周可以調用50次。這種限制是按周來算的，不是按小時或分鐘。

功能方面，目前的o1模型還不能支持所有的功能，比如理解圖片、生成圖片、解釋代碼、網頁搜索等。所以，用戶現在只能用它來進行基本的對話。

官方還說：

雖然現在o1模型成本較高，使用也有限，但隨著技術發展和openai的不斷改進，預計將來會有更多用戶能使用到這個模型，成本也可能會降低。

不管怎能說，ai越來越像人一樣「深思熟慮」了，至於這個模型，誰會付費呢？誰又能為它支付1000美金呢？或許，只有大公司、研究機構、有特定需求的專業人士才能承擔得起。

那到時候，真就成了花錢請了一個「ai專家」，所以，ai會替代專家嗎？

總結

越來越像人的模型。

誰也猜不到，未來的o1-preview（mini）會發展成什麼樣，至少，它肯定不會是個普通的gpt。

它會發展成具身智能嗎？有這個可能。隨著技術不斷進步，o1-preview（mini）很大概率會改變一些行業的運作方式。

科技

胡雷被威脅後續：車檢報告已出，警方成立調查組，這下踢到鐵板了 - 天天要聞

胡雷被威脅後續：車檢報告已出，警方成立調查組，這下踢到鐵板了

胡雷是去年感動中國十大人物，他坐著輪椅撿破爛十幾年捐了上百萬元，專門給留守兒童和災區送物資。最近他和朋友去貴州捐救災物資時出了事，朋友買的二手賓士車半路拋錨了，這車買才十天，檢查發現是改裝車還調錶，現在兩人為此維護權益卻被幾十人圍住威脅。

07月05日 9902

新機：紅米K90相機有史詩級加強；OPPO回應Find X9發布節奏；高通上線「縮水版」驍龍8Gen3；榮耀MagicV5賣爆 - 天天要聞

新機：紅米K90相機有史詩級加強；OPPO回應Find X9發布節奏；高通上線「縮水版」驍龍8Gen3；榮耀MagicV5賣爆

先問大夥一個問題：哪款小米手機的設計，是你覺得最經典的？如果讓我選，我應該還是會選 MIX 初代... 榮耀 Magic V5 首銷創歷史新高榮耀 Ma....

07月05日 3056

iPhone一鍵降溫？蘋果這隱藏模式有點過分啊 - 天天要聞

iPhone一鍵降溫？蘋果這隱藏模式有點過分啊

為了解決發熱這亘古難題，手機廠商絞盡腦汁，往手機里塞散熱膜、均熱板、填充硅脂，甚至還用上了主動風扇。但到了夏天三四十度的室外，該發熱還是發熱，該燙手還是燙手。國產安卓如此。 ....

07月05日 4177

國家速滑館人形機器人實訓基地啟用首批賽隊已入駐 - 天天要聞

國家速滑館人形機器人實訓基地啟用首批賽隊已入駐

7月5日，一場激烈的3V3機器人足球比賽在北奧集團運營的國家速滑館人形機器人實訓基地上演。北京信息科技大學光熾隊vs中國農業大學山海隊，這是實訓基地的第一場訓練賽。隨著2025世界人形機....

07月05日 1469

三星Galaxy S26Ultra不裝了，性能太炸裂了！ - 天天要聞

三星Galaxy S26Ultra不裝了，性能太炸裂了！

三星Galaxy S26 Ultra即將亮相，帶來多方面升級。·該機型將採用6.9英寸QHD+LTPO AMOLED顯示屏，支持120Hz自適應刷新率和3000尼特峰值亮度，確保在各種光照條件下都能提供清晰的視覺體驗。

07月05日 1286

中集洋山集裝箱第三季度訂單飽滿開拓氫能集成裝備求新|公司調研 - 天天要聞

中集洋山集裝箱第三季度訂單飽滿開拓氫能集成裝備求新|公司調研

財聯社7月5日訊（記者胡皓瓊）中美關稅緩和之下，外貿企業對美出貨恢復，帶動中集洋山集裝箱製造訂單增長。集裝箱製造廠在提升自動化水平的同時，為提高自身抗風險能力，還正布局新賽道。財聯社記者近日走訪中集集團（000039.SZ）旗下中集洋山，眼見一片片鋼板，經歷衝壓、焊接組裝、打砂等一道道工序，逐漸成形。產線上布...

07月05日 3097

數據寶一體機實機首秀2025生態文明貴陽國際論壇 - 天天要聞

數據寶一體機實機首秀2025生態文明貴陽國際論壇

7月5日至6日，2025年生態文明貴陽國際論壇召開，數據寶攜其AI技術領先成果重磅亮相論壇人工智慧展區，並以「企業私域業務模型一體機」實機首秀，現場演繹數據資產與AI深度賦能綠色發展的創新融合實踐。數據寶「企業私域業務模型一體機」。

07月05日 1512

同德推出更薄RTX 5070(Ti)GamingPro-S顯卡，RGB燈僅限正面 - 天天要聞

同德推出更薄RTX 5070(Ti)GamingPro-S顯卡，RGB燈僅限正面

IT之家 7 月 5 日消息，Palit 同德悄然推出了 GamingPro-S 系列的 RTX 5070 / 5070 Ti 顯卡，這些顯卡採用厚度更低的模具（IT之家註：從 3 槽 60mm 降至 2.5 槽 49.7mm），不過長度和

07月05日 1035

登上C909樣機，聽聽中國商飛工程總師怎麼說？《明青講習所》又上新了 - 天天要聞

登上C909樣機，聽聽中國商飛工程總師怎麼說？《明青講習所》又上新了

名師金課《明青講習所》今又上新，這期節目《「科學家精神」的迴響》聚焦於「科學家精神的時代傳承」，定於7月5日（周六）19:30 在上海教育電視台首播。陳明青老師帶領華東師範大學第一附屬中學、上海市魯迅中學、上海南湖職業技術學院的學生們，踏上沉浸式學習之旅，走進錢學森圖書館、中國商飛上海飛機設計研究院、上海科...

07月05日 2090

活力中國調研行｜升級！老「引擎」跳動智慧「心臟」 - 天天要聞

活力中國調研行｜升級！老「引擎」跳動智慧「心臟」

新華社合肥7月5日電　題：升級！老「引擎」跳動智慧「心臟」新華社記者唐詩凝、何曉、周牧發動機智能生產車間內，零部件一上線便掃碼登記「身份證號」；靈巧的機械臂上下揮舞，精準擰緊....

07月05日 2580