OpenAI o1比博士還「聰明」，全球11位AI大咖怎麼看？

2024年09月13日15:50:10 娛樂 8653

騰訊科技訊 9月13日消息，據國外媒體報道，美國當地時間周四，openai推出了名為openai o1的新人工智慧模型，這也是其首個具有「推理」能力的大模型，它能通過類似人類的推理過程來逐步分析問題，直至得出正確結論。

openai o1有o1-preview和o1-mini兩個版本，僅支持文本，向所有chatgpt的plus和team用戶推出，並在api中向tier 5開發者推出。根據openai官網的評測，這款模型尤其擅長處理數學和代碼問題，甚至在物理、生物和化學問題基準測試中的準確度超過了人類博士水平。

此外，openai o1在物理、化學、數學、邏輯等多維度的基準測試中，水平均超過了gpt-4o：

（gpt-4o和01基準測試對比，來源：openai）

比博士還聰明的openai o1，調動了全球的ai名人好奇心，除了openai的多位高管，英偉達高級科學家jim fan、紐約大學教授、美國知名ai學者加里·馬庫斯（gary marcus）、卡內基梅隆大學計算機科學博士生詹姆斯·坎貝爾（james campbell）等紛紛一睹為快，並在x上表達自己的看法。

我們匯總了全球11位關注ai的知名企業家、科學家的看法，有意思的是，整體的評價態度基本分為兩個陣營：

一個陣營以openai的高管和研究員為代表，他們大多數都給了「好評」，認為新模型開啟了新一輪的ai技術範式，幫助大模型走向更複雜的推理時代；而在openai之外的多數「編外人士」，給出的評價相對克制，雖然沒有否定openai o1的創新，但他們認為新模型的能力還沒有被充分測試，並且它距離agi依舊很遙遠。

「好評」陣營：openai o1打開了新的技術範式

在openai發布openai o1預覽版及其極速版openai o1-mini之後，該公司多位高管以及研究人員發帖，認為新模型將ai推向更複雜的推理時代。

openai首席執行官山姆·奧特曼（sam altman）：openai o1是我們迄今為止最強大的人工智慧模型。儘管它並非盡善盡美，仍帶有一定的缺陷與局限性，但初次體驗便足以令人印象深刻。更重要的是，這也預示一個新範式的誕生——人工智慧已邁入能夠進行廣泛而複雜推理的新時代。

openai總裁格雷格·布羅克曼（greg brockman）：openai o1是我們首個通過強化學習進行訓練的模型，它在回答問題之前會進行深思熟慮。這是一個充滿巨大機遇的新模型，無論在數量（推理度量已有顯著提升）還是質量（通過簡單英語「閱讀模型的思維」，忠實的思維鏈讓模型變得更可解釋）上，都有明顯改進。

這項技術仍處於早期階段，帶來了新的安全機會，我們正在積極探索，包括可靠性、幻覺問題以及對抗性攻擊的魯棒性。

思維鏈作者、openai研究員jason wei：openai o1是一個在給出最終答案之前會進行思考的模型，它不僅僅通過提示來訓練思維鏈，而是通過強化學習讓模型更好地完成思考過程。

在深度學習的歷史上，我們一直在擴展訓練計算，但思維鏈是一種自適應計算方式，也能在推理時進行擴展。

雖然openai o1在aime和gpqa的測試中顯得很強大，但不一定能直接轉化為用戶可以感受到的效果。即使對科學工作者來說，找出gpt-4不如openai o1的提示並不容易，但一旦找到，你會覺得非常驚奇。我們都需要找到更具挑戰性的提示。

人工智慧用人類語言模擬思維鏈在很多方面表現出色。這個模型能像人類一樣處理問題，比如將複雜的步驟拆解成簡單的步驟、識別並糾正錯誤，以及嘗試不同的方法。

這個領域已經被完全重新定義了。

openai研究員馬克斯·施瓦澤（max schwarzer）：我一直認為，你不需要一個gpt-6級的基礎模型來實現人類水平的推理能力，強化學習才是通往agi的關鍵。今天，我們有了證明——openai o1。

作為openai創始成員之一，前特斯拉ai高級總監安德烈·卡帕西（andrej karpathy）的評論畫風格外不同，他吐槽了模型的「懶惰」問題：openai o1-mini一直拒絕為我解決黎曼假設（riemann hypothesis），模型的「懶惰」仍然是一個主要問題。

英偉達高級研究科學家jim fan和卡內基梅隆大學計算機科學博士生詹姆斯·坎貝爾（james campbell）雖然不是openai工作人員，也給了好評。

英偉達高級研究科學家jim fan： 這可能是自2022年原始chinchilla縮放定律以來，大語言模型研究中最重要的進展。關鍵在於兩個曲線的協同作用，而不是單一曲線。人們通過延伸訓練縮放定律來預測大語言模型能力將陷入停滯，卻未曾預見到推理縮放才是真正打破收益遞減的關鍵。

我在2月份曾提到，任何自我提升的大語言模型演算法都沒能在三輪之後取得顯著進展。沒有人能在大語言模型領域重現alphago的成功，在這個領域，更多的計算能力將可達到超越人類的水平。不過，現在我們翻開了新的一頁。

博士生坎貝爾 vs 奧特曼：卡內基梅隆大學計算機科學博士生詹姆斯·坎貝爾（james campbell）發帖，展示了openai o1預覽版在美國數學邀請賽（aime）上的表現，顯示其解答了83%的問題。相較之下，gpt - 4o僅解答出13%的問題。坎貝爾寫道：「一切都結束了！」對此，openai首席執行官山姆·奧特曼（sam altman）回復稱：「我們還會回來的！」

「中差評」陣營：買家需謹慎，它並沒有那麼聰明

huggingface首席執行官兼聯合創始人克萊門特·德蘭吉（clement delangue）：再一次，人工智慧系統並不是在「思考」，而是在「處理」和「運行預測」——就像谷歌或電腦一樣。這種技術往往給人一種錯誤的印象，讓你覺得這些系統像人類一樣智能，但這只是廉價的宣傳和營銷策略，讓你覺得它們比實際情況更聰明。

紐約大學教授、美國知名ai學者加里·馬庫斯（gary marcus）：openai關於gpt的新模型確實令人印象深刻，但是：

1. 它不是agi（通用人工智慧），而且距離這個目標還很遠。

2.仔細閱讀並理解其中的細節。關於它如何工作的細節並不多，已測試的內容也沒有全面披露。它與gpt-4的其餘部分並未完全整合。（為什麼？）

3.完整的新模型並未向付費訂閱者發布，只推出了一個迷你版和預覽版。因此，業界還未能對其進行充分測試。

4.報告顯示，openai o1在許多領域表現良好，但在某些方面舊模型表現更佳。它並不是一個全面超越舊模型的神奇改進。

5.我們不清楚具體的訓練內容，但即使是一些基礎任務，如井字棋（tic-tac-toe），也存在問題。

6.openai誇大了它在法律考試上的成功，經過仔細審查，這些說法經不起推敲。科學審查需要時間，目前這些結果尚未經過同行評審。

7.它聲稱能在幾秒鐘內完成的任務，若給它一個月時間，可能會讓人驚訝。但如果給它一個高度專業化的任務，比如編寫複雜的軟體代碼，它可能會令人失望，因為openai希望你認為它無所不能。

8. 買家需謹慎。

沃頓商學院管理學教授伊森·莫里克（ethan mollick）：我已經用了1個月的「草莓」（openai o1），它在許多方面都很驚人，但也有些限制。也許最重要的是，這是一個信號，表明了未來事情的發展方向。

新的人工智慧模型被稱為「o1-預覽」（為什麼人工智慧公司總是這麼不擅長命名？），它在解決問題之前會先「思考」一下問題。這使得它能夠解決那些需要計劃和迭代的複雜問題，比如新穎的數學或科學難題。事實上，它在解決極其困難的物理問題上，現在甚至可以超過人類的博士專家。

需要明確的是，「o1-預覽」並不是在所有方面都表現得更好。例如，它並不比gpt-4o更強。但對於需要規劃的任務，表現卻非常好。例如，我給它下達了這樣的指令：參考下面的論文，考慮老師和學生的觀點，弄清楚如何使用多個代理和生成式ai構建一個教學模擬器。編寫代碼並詳細說明你的方法。然後我把我們論文的全文貼了上去，唯一的提示是要構建完整的代碼。你可以看到下面系統生成的結果。

評估這些複雜的輸出確實很困難，因此展示草莓模型的收益（以及局限性）最簡單的方法是用一個遊戲：填字遊戲。我從一個非常難的填字遊戲中提取了8條線索，並將其翻譯成文本（因為我還不能看到圖像）。不妨自己嘗試一下這個謎題，我敢打賭你會覺得它很有挑戰性。

填字遊戲對大語言模型來說顯得尤其棘手，因為它們需要反覆試錯：嘗試並排除許多相互關聯的答案。而大語言模型無法做到這一點，因為它們每次只能在其答案中添加一個token。例如，當我把這個謎題給claude時，它首先給出的答案是「star」（錯誤的），然後用這個錯誤的答案嘗試解答剩下的謎題，最後甚至連答案都猜不出來。沒有規划過程，它只能不斷嘗試。

但如果我把這個謎題給草莓會怎樣呢？這個模型首先「思考」了整整108秒（大多數問題能在更短時間內解決）。你可以看到它的思路，下面是一個樣本（還有很多我沒包括），這些思路非常啟發人——值得花時間讀一讀。

大語言模型會反覆迭代，創造和排除想法，結果通常相當出色。然而，「o1-預覽」似乎還是基於gpt-4o，有點過於字面化，難以破解這個較難的謎題。例如，「星系團」並不是指真正的星系，而是三星galaxy手機（這也讓我困惑）——答案是「應用程序」。在決定是否為coma（一個真實的星系團）之前，它一直在嘗試實際的星系名稱。因此，剩下的結果雖然有創意，但不完全正確，也不符合規則。

為了嘗試更進一步，我決定給它一個提示：「1向下是apps。」人工智慧又花了一分鐘。再次，在它的思維樣本中（見左邊），你可以看到它如何迭代想法。最終，它給出的答案完全正確，解決了所有難題的提示，儘管它確實生成了一個新線索——這不是我給它的謎題。

所以，如果沒有「草莓」，「o1-預覽」所做的事情是不可能實現的，但它仍然不是完美的：錯誤和幻覺仍然存在，且它仍受限於gpt-4o作為底層模型的「智能」。自從有了新模型，我沒停止用claude來評論我的帖子，claude在風格上仍然表現更好，但我確實停止用它處理任何複雜的計劃或問題解決任務。「o1-預覽」在這些領域代表了巨大的飛躍。

使用「o1-預覽」意味著面臨人工智慧的範式變化。計劃成了一種代理形式，人工智慧在沒有我們幫助的情況下自己得出解決方案。可以看出，人工智慧做了大量的思考，產生了完整的結果，作為人類夥伴的角色感覺被削弱了。人工智慧會自主完成任務，然後給出答案。當然，我可以通過分析它的推理找出錯誤，但我不再感覺自己與人工智慧的輸出有聯繫，也不再覺得自己在解決方案的形成中扮演重要角色。這不一定是壞事，但確實是一種改變。

隨著這些系統不斷升級，逐漸走向真正的自主代理，我們需要弄清楚如何保持在這個循環中——既要捕捉錯誤，又要掌握我們試圖解決問題的核心。「o1-預覽」展示了可能前所未見的人工智慧功能，即使它目前存在一些局限性。這給我們留下了一個關鍵問題：隨著人工智慧的發展，我們如何與它更好地合作？這是「o1-預覽」目前還無法解決的問題。

和很多人直接的褒貶觀點不同，作為對話式搜索引擎perplexity ceo，阿拉溫德·斯里尼瓦斯（aravind srinivas）試圖「猜測」openai o1模型的原理。他不認為「草莓」所給出的答案是經由反覆批判性反饋精心提煉的結果，而且認為單純依賴大型語言模型來得出答案並不足夠可靠。他建議，將代碼執行融入其中，並結合從知識圖譜中直接提取的事實，這一做法在實際應用中可能更為有效。

總體而言，openai o1的「思考」時間更長、更擅長處理標準化程度更高的「理科」問題了，這對科學領域的發展來說是一件好事。但除了是非分明的邏輯推理問題，世界上所存在的更多問題，都是沒有標準答案的，對芸芸眾生而言，一千個人眼中有一千個哈姆雷特，如果大模型能為人類解決這類非標問題，或許才能接近真正的agi。(編譯/金鹿編輯/可君、周小燕)

娛樂

李惠利被爆新戀情，男方是個舞者，經紀公司回應：私生活無法確認 - 天天要聞

李惠利被爆新戀情，男方是個舞者，經紀公司回應：私生活無法確認

因為《請回答1988》結緣的李惠利和柳俊烈，也在作品結束後假戲真做，成了情侶。可惜兩人交往七年，終究落得分手的結局。雖然結局令人唏噓，但情場失意的李惠利，事業上又迎來了新的爆發期，去年因為《善意的競爭》又一舉成為熱門女演員。

07月01日 1523

小李琳一家烏魯木齊旅遊，經超帶她逛百元店，大女兒出鏡眼神好凶 - 天天要聞

小李琳一家烏魯木齊旅遊，經超帶她逛百元店，大女兒出鏡眼神好凶

與小李琳結婚十多年的經超，真是用行動證明了年齡和婚史都不影響真正的愛情，老婆小李琳比他大五歲，且與他在一起前，結過婚有一個女兒，對頭婚的經超來說，還沒正式當爸，就開始做繼父還是有點吃虧。不過這麼多年過去了，看得出經超和老婆小李琳的感情是真好

07月01日 1943

「這裡是上海This Is Shanghai」全球短片徵集計劃發布 - 天天要聞

「這裡是上海This Is Shanghai」全球短片徵集計劃發布

加快建設「五個中心」的上海正不斷吸引著全世界目光。日前，由上海市人民政府新聞辦公室發起、上海廣播電視台真實傳媒有限公司主辦的「This Is Shanghai」（這裡是上海）全球短片徵集計劃正式開啟！徵集計劃面向全球創作者，徵集時長為5分鐘的優質微紀錄片、短視頻作品，旨在鼓勵創作者立足上海，用真實、多樣的影像語言共...

07月01日 9108

水均益闢謠移民傳聞 - 天天要聞

水均益闢謠移民傳聞

此前，網傳水均益移民。6月30日，水均益在個人賬號發布視頻，曬出他帶兩個孩子領取身份證的畫面。（來源：極目新聞）更多精彩資訊請在應用市場下載「極目新聞」客戶端，未經授權請勿轉載，歡迎提供新聞線索，一經採納即付報酬。24小時報料熱線027-86777777。...

07月01日 2568

58歲孫濤近況：和初戀恩愛了29年，如今18歲女兒也開始給他爭光了 - 天天要聞

58歲孫濤近況：和初戀恩愛了29年，如今18歲女兒也開始給他爭光了

閱讀此文前，誠邀您點擊一下「關注」按鈕，方便以後持續為您推送此類文章，同時也便於您進行討論與分享，您的支持是我們堅持創作的動力~~~最近這段時間，很多高考考生都已經知道了自己的高考成績，正在認真地填報自己的高考志願。

07月01日 1155

從「京圈風波」到實力封神，宋佳獲獎發言看哭多少女人，字字戳心 - 天天要聞

從「京圈風波」到實力封神，宋佳獲獎發言看哭多少女人，字字戳心

宋佳能得獎，我一點也不意外。反而是她的發言，真的驚艷到我了。我願意再一次把她的發言內容分享出來，因為實在太精彩了。「我想特別謝謝所有入圍的優秀的女性創作者們，大家在各自的作品中真的都熠熠生輝，而我是最幸運的那一個。我知道我們一直在努力的是什

07月01日 1772

解碼建國初期陝西電影觀眾的生存史詩！ - 天天要聞

解碼建國初期陝西電影觀眾的生存史詩！

建國初期的陝西銀幕，像一台精密的社會掃描儀，將不同階層的生存狀態投射在方寸之間。當西安紡織城的工人憑工會證免費踏入工廠俱樂部，當陝北農民攥著五分硬幣在曬穀場等待幕布升起，當城市孩童在兒童早場啃著窩頭看《雞毛信》，銀幕內外早已超越了娛樂範疇，

07月01日 1128

2025年撲的最慘的三部劇，居然都是大製作，太不應該了！ - 天天要聞

2025年撲的最慘的三部劇，居然都是大製作，太不應該了！

25年撲街的劇很多，但這三部劇撲的確實太讓人意外了。因為無論是製作班底，還是流量陣容，都不應該！首先就是《淬火年代》，正午陽光出品，央媽力薦，張新成、宋祖兒、王彥霖、任程偉、高露等實力派出演，還與大爆劇《大江大河》聯動，每一個看點都是爆劇潛

07月01日 1355

33歲鄧倫被偶遇出行，獨自開車拿東西，此前被曝結婚開啟新生活 - 天天要聞

33歲鄧倫被偶遇出行，獨自開車拿東西，此前被曝結婚開啟新生活

掐指一算，距離鄧倫塌房已經過去3年了，最近有網友偶遇鄧倫獨自出行，穿著低調，似乎已經習慣素人生活了。當天鄧倫一身白色T恤搭配短褲，戴著黑色帽子和口罩，穿搭非常簡約，手裡似乎還抱著乾洗完的....

07月01日 7556

美媒：以伊衝突點燃中國興趣，「西伯利亞2」有望復活 - 天天要聞

美媒：以伊衝突點燃中國興趣，「西伯利亞2」有望復活

擱置許久的中俄「西伯利亞2」天然氣管道項目，竟要因為以伊衝突迎來春天？日前美媒報道稱，儘管以伊實現了停火，但是考慮到中東地緣政治風險，中國依賴伊朗石油終歸不安全，以伊衝突點燃了中國對中俄....

07月01日 8596