陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案

2025年03月11日14:40:15 遊戲 7363

金磊 發自 凹非寺

量子位 | 公眾號 qbitai

剛剛,陶哲軒親測了一下o3-mini,然後他給出了這樣的結論:

重建圖論中一個標準(專家級)結果的證明,o3-mini是完全可以hold住的。

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

陶哲軒要重建的這個證明,叫做三角形移除引理(triangle removal lemma),由ruzsa和szemeredi於1978年提出,是極值圖論中的重要結果:

對於任意的η>0,都存在c>0,使得對於任意一個足夠大的有n個頂點的圖,如果該圖中最多包含cn3個三角形,那麼可以通過移除最多ηn2條邊,使這個圖變為無三角形的圖。

用另一種表述方式就是,如果一個有n個頂點的圖包含o(n3)個三角形,那麼可以通過移除o(n2)條邊來刪除所有的三角形。

然後陶哲軒看罷o3-mini的作答後表示:

在幾秒鐘後,我收到了一個完美的答案,(o3-mini)正確地解釋了這種蘊含關係。

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

o3-mini是如何作答的?

首先,我們來看下陶哲軒的prompt

ruzsa和szemeredi的三角形移除引理斷言,如果一個具有n個頂點的圖(n很大)包含o(n3)個三角形,那麼可以通過移除o(n2)條邊使其變為無三角形圖。顯然,這一引理蘊含了以下結論:如果一個具有n個頂點的圖是n個誘導匹配的並集,那麼它只包含o(n2)條邊。你知道後者是如何從前者的結論中推導出來的嗎?

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

對於這個問題,o3-mini的回答是這樣的:

(註:為完整體現內容,o3-mini的作答將以英文呈現)

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

可以看到,o3-mini回答的邏輯還是比較清晰的。

一步一步展開論證,從起始條件(誘導匹配的並集),到構建輔助圖,再到建立邊與三角形數量的聯繫、應用引理,最後得出結論。

緊接著,陶哲軒開始追問了:

謝謝!三角形移除引理的另一個標準推論是(6,3)定理:如果一個具有n個頂點的3-一致超圖不包含(6,3)-配置,即不存在六個頂點確定至少三個超邊的情況,那麼該超圖只包含o(n2)條超邊。你能解釋一下為什麼這也是三角形移除引理的一個推論嗎?

o3-mini在思考了片刻後,開始作答:

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

o3-mini對這個問題的總結是:

在一個不包含任何 「(6,3)-configuration」(即任意六個頂點不生成三條或更多超邊 )的3-uniform 超圖中,由於將超邊編碼為輔助圖中的三角形後,輔助圖的三角形結構受超圖條件限制呈現 「稀疏」 狀態 ,根據三角形移除引理可以推斷出,該超圖中的超邊總數為o(n2),也就是說這樣的超圖不會過於稠密。

在此之後,陶哲軒便開始加大難度

感謝你的大致概述!我有興趣將其擴展成一個更詳細的證明。我聽說首先考慮超圖是線性的情況會很有幫助——即任意兩條超邊不會共享兩個頂點。你能將你的概述擴展成一個更精確的論證,專門針對線性情況嗎?

這一次,o3-mini思考的時間足足是上個問題的四倍:

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

這次o3-mini的推理過程,是通過構造一個輔助圖g,將超圖中的每個超邊對應到輔助圖中的一個三角形。利用線性性質保證這些三角形邊不相交,再通過假設m=Ω(n2)推出與三角形移除引理相矛盾的結果,從而證明原假設錯誤,得出超邊數量的漸近上界 。

陶哲軒再追問:

如何確保圖g不會產生任何額外的三角形,除了那些直接由超邊生成的三角形之外?

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

至此,陶哲軒評價道:

好的,我認為這給出了(6,3)定理在線性情況下的完整證明

然後繼續追問o3-mini:

你有什麼建議,如何建立一般情況下使用這個線性的情況?

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

o3-mini給出了一種「清理」的路數:

  • 清理超圖:通過刪除少量超邊使得到的子超圖h』線性化,「(6,3) 條件」 保證不會移除過多超邊。

  • 應用線性情況結論:為線性超圖h』構建輔助圖,每個超邊對應一個邊不相交三角形。

  • 利用三角形移除引理:過多的邊不相交三角形會導致與引理矛盾,所以h』有o(n2)個超邊。

  • 推導原始超圖的邊界:因為h』保留了h』的幾乎所有超邊,所以原始超圖h』也有o(n2)個超邊。

陶哲軒認為這是一個不錯的策略,並最後提出了一個問題:

你能不能試著給出一個更精確的清理步驟的描述,這個步驟可能會把一個一般的(6,3)超圖轉換成一個線性的(6,3)超圖,並對邊緣進行一些控制?

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

但也有局限性

在陶哲軒六連問之後,除了剛才提到的「完美答案」之外,他還給出了更加客觀中立的評價:

我的總體感覺是,至少對於研究級的數學任務,當前的模型在「僅需用戶提供大致指導即可真正有用」和「只有在用戶提供大量詳細指導後才有用」之間波動,而最強大的模型在前者中的回答比例更高。

它們似乎特別適合那些非常標準的問題,這些問題的答案基本上可以在現有資源(如維基百科或stackoverflow)中找到。

但隨著問題變得越來越冷門,成功率逐漸下降(儘管下降的方式較為平緩),並且需要更多的用戶指導(或更高的計算資源)才能使llm的輸出達到可用的形式。

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

陶哲軒的這波實測也引發了不少網友的討論。

例如有人質疑llm的推理能力,認為它們是隨機文本生成器,而不是真正的推理模型。他指出llm的輸出依賴於點贊/踩票信號,而不是真正的邏輯推理。

陶哲軒親測點贊o3-mini:專家級證明,我收到了一個完美的答案 - 天天要聞

陶哲軒與o3-mini完整對話:
https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

參考鏈接:
https://mathstodon.xyz/@tao/114139145175476223

遊戲分類資訊推薦

EA 為《戰地 6》設定宏偉目標:玩家人數達到 1 億,但開發者質疑 - 天天要聞

EA 為《戰地 6》設定宏偉目標:玩家人數達到 1 億,但開發者質疑

IT之家 7 月 5 日消息,據外媒 Arc Technica 7 月 2 日報道,EA 正大舉押注其經典系列《戰地》的未來,並自信預測下一部新作《戰地 6》將超越所有前作,更為該作設定了 1 億玩家的雄心目標。多名參與項目的 EA 開發人員在接受 Ars Technica 採訪時表示,1 億玩家的目標「有些理想化」,遠遠超出此前所有作品的實際表現。例...
深海「新戰場」:日本開始行動了 - 天天要聞

深海「新戰場」:日本開始行動了

據《日本經濟新聞》網站7月1日報道,日本海洋研究開發機構(JAMSTEC)將於2026年1月在南鳥島周邊海域啟動稀土試驗性鑽探。該機構將利用「地球號」鑽探船,抽取位於海面下5500米深處含稀土的泥漿,若能成功則將成為世界首例。在全球稀土生產大部分由中國承擔的背景下,日本此舉旨在推動國產稀土資源開發。——————————...
Kiin是GEN晉級功臣,距離MSI衛冕只剩下兩場 - 天天要聞

Kiin是GEN晉級功臣,距離MSI衛冕只剩下兩場

「訓練賽時對陣AL就非常艱難,所以我早有心理準備,但這場比賽依然異常艱苦。」在7月5日的《英雄聯盟》季中冠軍賽(MSI)淘汰賽勝者組第二輪中,LCK勁旅GEN展現了出色的凝聚力和團隊協作,以3比2險....
EWC即將開戰,認識那些沒有參加大師賽的隊伍 - 天天要聞

EWC即將開戰,認識那些沒有參加大師賽的隊伍

距離首屆EWC《無畏契約》賽事僅剩幾天,7月8日將迎來全新的國際賽事,16支隊伍前往利雅得進行新一輪的挑戰。許多觀眾已經通過最近在VCT多倫多大師賽上的表現,熟知了眾多參賽隊伍的最新動態。但參加電競....
Duro預測BLG擊敗T1晉級,機器人是自信選擇 - 天天要聞

Duro預測BLG擊敗T1晉級,機器人是自信選擇

首次參加國際賽事的Duro表示,儘管GEN在比賽中獲勝,但他對隊伍的表現並不完全滿意。在7月5日舉行的2025年季中冠軍賽淘汰賽第二輪中,LCK一號種子GEN對陣LPL一號種子AL,經過五局激烈交鋒....
MSI優勢在我?左手交手Faker,BLG大戰T1 - 天天要聞

MSI優勢在我?左手交手Faker,BLG大戰T1

北京時間2025年7月6日,英雄聯盟MSI季中賽將在這一天迎來兩場比賽的對決。第一場是敗者組MKOI對陣CFO的比賽;第二場則是本屆MSI的又一場重頭戲比賽BLG對陣T1。那麼,這一天的兩場比賽都有哪些看點呢?就讓我們一起來了解一下吧!
魔獸玩家連肝27小時實測坐騎掉落BUFF!部分坐騎可能沒加成 - 天天要聞

魔獸玩家連肝27小時實測坐騎掉落BUFF!部分坐騎可能沒加成

隨著「收集者的懸賞」活動上線,稀有坐騎掉率出現明顯提升,不少玩家開始瘋狂衝刺自己夢寐以求的老坐騎。然而就在大家還在隨緣刷坐騎的時候,一位來自美服的硬核玩家選擇了最直接的方式驗證掉率——用35個角色連續直播27小時,親自實測這個掉落BUFF到底有多有效。這次測試結果非常具有代表性,一方面證明了BUFF確實能顯著提...
魔獸新裝備BUG!玩家腰帶提前滿級,暴雪睜一隻眼閉一隻眼! - 天天要聞

魔獸新裝備BUG!玩家腰帶提前滿級,暴雪睜一隻眼閉一隻眼!

魔獸世界又出幺蛾子了!裝備每周升級機制,這次又被玩家提前突破。新版本中來自地下堡的「牢固信息保全容器」(俗稱D.I.S.C.腰帶)本該分四周逐步升級,但現在已經有不少玩家提前拿到了最高的701等級!是操作巧合?還是系統BUG?無論哪種,暴雪這次似乎選擇了默許。正常進度:本周應停在697這條D.I.S.C.腰帶是通過每周完成...
武將爆料丨最多20%降低敵方攻擊,範圍減益攻防兼備!軍略武將戚繼光來襲 - 天天要聞

武將爆料丨最多20%降低敵方攻擊,範圍減益攻防兼備!軍略武將戚繼光來襲

封侯非我意,但願海波平戚繼光即將於7月10日登場在亂世中司掌軍略委任這位名將會帶給主公怎樣的提升快來和小蟬一起看看武將生平戚繼光,字元敬。明朝傑出的軍事家、書法家、詩人。戚繼光自幼家貧力學,博通經史。嘉靖四十年,戚繼光在台州、仙居、桃渚等處大勝倭寇,九戰皆捷。次年奉調援閩,將福建境內倭寇主力消滅殆盡。...