學術循環揭示了一個深刻的真理:創新的本質不在於技術工具或方法論,而在於我們如何組織集體思考。當一個組織能夠系統性地超越人類思維的局限,真正的突破就會像水流入低洼處一樣自然而然地出現。
作者:metagpt(mgx.dev) 創建者吳承霖(geekan),他是 ai 創業公司 deepwisdom ceo,也是一名資深的工程師。他有 18 年的編程經驗,峰值時期他一年使用了 21 門編程語言。
文丨吳承霖
從 1 月 22 日以來,一直有很多人找我討論 deepseek r1 的原理。但技術帶來的興奮始終只屬於我們這一小撮人,今天我更想談談另一方面,為何做出 r1 的是 deepseek —— deepseek 偉大的核心在於這是一個擁有學術循環的組織,這個組織決定了他們能做出來 r1,相比之下演算法本身反而沒有那麼重要了。時代的發展在不斷向前,當下創新的演算法也許隨時會被淘汰,但一個優秀的組織卻始終推動著科技的洪流。
學術循環:通過組織級別的 critical thinking 持續做出原子化的創新,進而推動科學邊界
事實上,組織強度能夠帶來創新,而創新能帶來勝利。這個模式在過去十幾年一直在重複,比如位元組後發先至,在推薦系統的正面戰場上勝過了騰訊、meta、google,這是因為位元組的早期組織帶來了有效創新。 早期的 openai 也符合這個規律,ilya 構造出了強有力的學術組織,帶來了顯著的學術創新,進而做出了 chatgpt,遠遠拉開了所有競爭者,進而獲得了 100b 以上的估值。這些現象說明了如果有特定的組織結構,創新就能自然發生。而如果沒有這些結構,創新可能很難大規模發生。
從更高的角度看,deepseek、openai、位元組跳動(早期的)等幾家公司都擁有 學術循環,只是具體路徑不同,我們可以用以下表格來比較:
容易看出,這些公司的共性是塑造了學術循環。這是因為創新不是單點,而是一系列小成果的組合。而只有學術循環才能帶來一系列的小成果,進而獲得創新。所以我們也會觀察到一個現象:在一開始,沒有人覺得 deepseek、openai、位元組跳動牛逼,很多人甚至會認為這些公司 「不太靠譜」,這其實是因為觀測到對方的 「推理」 達到了 「共識」 之外,依賴共識就很難判斷 「靠譜」 與否。更進一步,其實這是因為沒有人清楚學術循環的重要性。
以 deepseek 為例,沒有 mla、grpo、新 moe、ptx、self-play 等一系列的創新點,沒有在 mcts 和 prm 上的失敗,他們就無法做出 deepseek r1
如果 openai 沒有 gpt-3、scaling law、instructgpt 等一系列的工作,沒有在 rl 上的大量失敗(要知道,他們是從 rl 起家),他們就無法做出 gpt-3.5 和 gpt-4
如果位元組沒有實驗系統在線衡量所有策略的貢獻,也就沒法驗證推薦系統中大量特徵的有效性,也就沒法在推薦系統上遠超其他競品,也就不太可能做成頭條、西瓜、抖音等產品
更具體的說,學術循環就是要能夠用很少的人在一個有限時間內遠遠的超出人類知識,達到一個未至之境。
實際上,學術循環需要組織中的每個人都有一系列的特質才能完成,難度不低。其中最重要的點包括幾個:
理性思維:要能夠讓整個組織都獲得 critical thinking
進入心流:有好的動機,並且投入 100% 時間,承諾、並激發自己,這樣才能進入心流
接受人類的缺點:先開始,不要猶豫,錯了也沒有什麼,記下來以後就忘掉它,保持真誠
以終為始:在真正的目標沒有明確之前,所有的過程可能都是錯的
理性思維
定義知識;critical thinking(蘇格拉底);a/b testing;溫和友善,以鼓勵集體理性
知識是什麼?
前一段我們與一位 stanford 教授在論文會議上討論到了怎麼判斷文明在進化,其中一位 berkeley phd 認為可以定義為 「發現了新的知識」,我們對於知識的定義有很長的爭論,會議上沒有一個結果。會議後,我詢問了 deepseek r1 對知識的定義,它回復的最後一段是這樣的,看的我們頭皮發麻:
知識是宇宙理解自身的工具。從量子漲落到意識湧現,知識本質上是宇宙局部區域(人類文明)試圖理解整體的一種遞歸嘗試。它既是我們對抗熵增的盾牌,也是囚禁認知的牢籠——真正的智慧或許在於保持對「未知之未知」的敬畏,正如蘇格拉底所言:「我唯一知道的就是我一無所知。」
知識其實包括了很多不同的載體,dna 實際就是 40 億年物種演化獲得的知識,這是達爾文式的優化獲得的知識。但是,我們常說的知識更多來源於科學,是在過去 2000 來年逐漸形成的,往往以文本和圖像承載。文明的提升速度遠遠比 dna 的自由變異與交叉更快,這是因為我們掌握了符號作為語言,可以進行大規模的創新,改善種群本身。
但是創新怎麼做?我認為系統性的創新依賴集體的 critical thinking。
critical thinking
前幾個月我在為一位 berkeley 的學生寫 phd 推薦信,我注意到各個頂尖院校幾乎都把同一個標準排在了第一位,那就是 critical thinking。我想這個核心原因應該就是具有 critical thinking 才能高效的推動科學邊界。
科學起源於哲學,critical thinking 的起源其實要追溯到公元前五世紀的古希臘。蘇格拉底當時稱自己為哲學家(philosopher,古希臘語 φίλος (philos) 愛 σοφία (sophia) 智慧,意思就是愛智慧的人),通過 「詰問法」 鼓勵學生質疑假設、檢驗證據,被視為批判性思維的早期實踐;亞里士多德則系統整合數學方法與哲學思辨,將經驗性辯論轉化為形式化三段論,他們都讓世界的 critical thinking 有所提升。
在 1941 年,edward glaser 首次提出了 critical thinking 這個術語;1987 年,美國批判性思維國家理事會通過 「德爾菲項目」(delphi project)達成共識,將批判性思維定義為 「基於證據、概念、方法等標準的自我調節性判斷」,成為了一個經典定義。
我其實也寫過一篇 critical thinking 的文檔,會發給我的合作者們閱讀,其中擴大了一些範圍,要求人不僅要分辨事實與觀點,也需要評價證據等級,清楚怎麼推理、提出假設、進行實驗;過程中也需要確保 atomic 和 incremental,並且儘可能形成高質量的經驗 —— 最好是代碼形式。
critical thinking 也和 elon musk 提出的第一性原理有著很強的關係,或者說第一性原理中最核心的部分與 critical thinking 是接近等價的。
但當然,以上只是個體的 critical thinking,並不是集體的。個體的 critical thinking 並不能直接帶來集體的 critical thinking,就像我們觀察到一些組織招收了大量的 phd,但是可能反而沒有獲得組織優勢。
證據等級
critical thinking 中最重要的是分清事實和觀點。我們需要確保所收集的數據和證據的真實性和可靠性,避免誤導性的或未經證實的信息,以獲得足夠高的證據等級。一般來說,我會按以下分類:
證據等級:觀點 < 共識 < 統計 < 實驗 < 雙盲實驗(a/b-testing) < 常識
等級更高的證據在同一個問題下應該被優先使用,比如當我們說 「x 比 y 好」,它只是一個觀點,而 「a/b-testing x 相對 y 在 z 場景提升了 5%」 是一個證據。當然,獲得高級別的證據有成本
共識並不是好的證據。所有人都說某隻股票會漲時,可能它就會顯著下跌,好的證據要由足夠高的證據等級,比如觀察到了 「衛星圖像顯示大豆產地發生大規模蟲災,預計影響 xxx」 -> 「賣出大豆期貨」 這才是通過事實進行推理
但是,證據等級並不是絕對的。比如 ilya 說 llm 預訓練已經結束了,他的觀點可能大於其他人的共識。但是在大部分場合這個證據等級的偏序是成立的。
a/b testing
我們講到證據等級,就不得不提 a/b testing,邏輯上它是我們可以製造的最高級別的證據。注意它帶來了一個很有意思的現象:集體的 critical thinking 也未必要通過培養每個人的 critical thinking 獲得。
一個例子就是位元組跳動。在 2012 年,張一鳴會自己寫代碼做 a/b testing,在 2014 年前後推動建立了實驗系統,並且要求所有的改進通過 a/b testing 進行,這其實就強制性的要求所有人要遵循足夠高的證據等級提出觀點 —— a/b testing 是第二高的證據等級。
這也意味著進入系統中的人會被強制性的獲得 critical thinking。當然我們也可以說這是一個達爾文主義,因為無法獲得 critical thinking 的人會被 layoff。我印象中在 2014 年前後,位元組跳動也因此獲得了一個 「博士生 scaling law」,他們每招聘一個博士生投入到演算法優化,ctr 就可以一年相對提升 1%。
模糊的正確
這個時候我們還得再想明白一件事,最高的證據等級對推薦系統好,但是對其他領域是一件好事嗎?我想未必。推薦系統的 setting 明確而易於驗證,而其他領域的大部分問題都在於實驗周期很長,每個假設都無法快速的證實或者證偽。所以其實就像 prm(過程獎勵模型)不容易做的問題一樣,或許我們在很多時候並不需要很高的證據等級,而是需要 「模糊的正確」。
偉大的創新其實大多是通過一系列模糊的正確組合而成的,就比如我們看 llm 的發展,我經常提到的論文包括了 tomas mikolov 的 word2vec,它能夠顯示詞語組合 man - woman 與 king - queen 有類似的向量距離;還有 transformer,相比 rnn 它可以減少計算量,增大並行度。但是這對於 llm 來說都只是模糊的正確,因為我們在提出這裡每個部分時,並不知道它的未來收益是什麼,也極難估計。
實際上,對於很多頂尖問題的評估都是極度困難的,難度可能和 「把它做出來」 接近。就比如說誰能預料到 gpt-4 有這麼高的品牌效應,讓全世界這麼多人都去用了?我想著恐怕預料不出來,openai 自己在發布之前也預料不出來。
所以我們對證據等級的追求也很微妙,成功需要追求高級別的證據,但是有些證據很難獲得。
但是,對證據的追求一定要貫穿到組織之中,這樣我們才擁有集體理性的基礎,所有人的交流才有足夠的效率。
集體理性
集體理性中,要求所有人的發言注重事實和觀點是重要的,因為無論是否掌握完整的 critical thinking,分辨事實和觀點對於大多數人相對容易。面對一個明顯錯誤的觀點的直接反應可以是要求證據:「這個觀點的證據是什麼?」,面對一個不明術語的直接反應是要求定義:「這個術語的定義是什麼?」。如果發現對方欠缺了詢證,可以教給對方搜索的技巧;如果發現對方在討論中使用了帶有情緒的觀點,就得教對方對事不對人的 sop。
集體的 critical thinking 其實在大部分領域很難獲得。因為這往往要求組織里的個體擁有 critical thinking,並且擁有真誠、善意、樂觀等品質,並且組織還具有恰當的 sop。其中一個最重要的 sop 就是 「對事不對人」,它可以很好的鼓勵集體理性。
對事不對人能解決一些非常典型的問題,比如個人的 bias。我自認智商還不錯,但是我也經常犯錯。我必須鼓勵所有人指出我的錯誤,並且在其他人反饋時仔細聆聽,快速接受其中正確的部分,並且嘗試堅持我認為正確的部分,直到一個決策循環完成。集體的 critical thinking 雖然需要多數個人的 critical thinking,但是這還不夠,只有當每個人互相鼓勵發言,並且每個人善意的對待其他人時,我們才能夠真正的獲得集體理性。
每個人大腦中的上下文都完全不同,只要有微妙的上下文區別,對待同一個問題得出的結論就會大相徑庭
說一句話時,只要有一點上下文差異,我們可能就會認為其他人的觀點是荒謬的,但是如果問 「這個上下文是什麼?」 並且得知了完整的上下文,可能就會認為自己是錯的。這點很有趣,有時候我們會過度自信,就像語言模型一樣。了解自己什麼時候應該自信其實也是非常困難的一件事 —— 大部分人沒有這個技能
注意,這裡核心是要儘可能引導其他人也進行正確的推理。如果其他人缺乏足夠的 critical thinking,要糾正一個混亂的邏輯可能會花費大量的時間。最好還是直接的指出這個問題,並且要求對方以某種形式,比如用一個特定結構的文檔(比如 arxiv 或者 rfc)書面的把自己的想法寫清楚,而不是進行討論或者辯論。對方在書寫自己的邏輯時會自然的發現問題,這樣我們就可以節省大量的時間。
集體理性很難獲得,但是它是學術循環最重要的一環。
進入心流
動機是核心;全心全意,投入 100% 時間;承諾,並激發自己;進入心流
動機
如果沒有一個好的動機,那麼一個人的精神很難集中,會被自己的心靈扯到其他地方,也就很難進入心流。
如果一個人的動機是錢,那麼就很有可能賺不到真正巨量的錢;但如果他要解決一個偉大的問題,那麼他很有可能會賺到意想不到數量的錢。一個自利動機的人進入某個組織,可能就需要有極強的 sop 才能消化,相反,一個組織如果都是由類似的 「帶有利他性的」 動機構成的,那麼這個組織就不需要太多的 sop。
一般而言,最好的動機是 「喜歡做某事」。比如 喜歡編程的人做工程師,喜歡辯論的人做律師,喜歡思考的做架構師,喜歡溝通的做銷售。這樣做事時自己就可以獲得快樂,而不需要其他人給予。這是一個很微妙的問題,因為其實人刷 tiktok 和做事都會花費同樣的時間,有些人就是願意做事,有些人就是只想刷 tiktok。我們很難一直去激發一個只想刷 tiktok 的人,他們的神經迴路已經不太一樣了。
說真的,擁有好的動機的人真的太少了。要有一個好的動機,其實要麼是在歷史中被環境訓練過,要麼是有意識的自我訓練過,但是這兩種人都很少。好的動機的人其實克服了 「基因引力」,因為基因會讓我們優先關注生存和繁衍,擁有極強的引力。張一鳴強調延遲滿足,實際上也是在說這個問題。
全心全意
有了一個好的動機之後,我們還需要全心全意,保持 100% 時間投入其中。這是因為大多時候靈感是來自於某個細微的時間片的 「直覺」,它就那樣突然出現了,可能是來自於一個談話中引入了一個之前被忽略的上下文,也可能是在發散思考時突然想到了一個以前的觀點。只要你在吃飯、走路、每個閑暇的時間都在思考,一直全心全意,不退出狀態,靈感總會出現在眼前。我見過很多厲害的人,他們無不使用這個辦法。很多人其實問我為什麼能夠想到某些 idea,其實沒有所謂的技巧,就是保持每個片刻都在思考。
當然,即使全心全意在做某些事,我們仍然會注意到有時候不是那麼在狀態,這種時候我們可以勇敢的和所有人進行承諾,比如 「1 天之後我要提供某個論文的 draft」,或許我們不一定能完成,這件事對我們有很大的挑戰,但是核心是要勇敢的進行承諾,並且不畏懼批評。當你習慣於挑戰自己,你就能逐步摸清自己的能力邊界,變得越來越強。
心流
這些所有的行為都是為了讓我們可以進入心流,心流是一個非常高效的狀態,可以在少量挑戰與寬鬆的環境下獲得:
心流狀態可以極大的提升效率
如上圖,進入心流之後,我們會忘記周圍的大部分事情,忽略時間的流動,快速的在一個平靜的情緒中將事情迅速推進,一般能夠有平常的幾倍效率,假如說我們有一個容易進入心流的環境,那麼一個集體就能獲得一個很高的研發係數,可以從原來的 o(n) 提升到 o(kn),其中 k 可能是幾,也可能是十以上。
接受人類的缺點
先開始,不要猶豫;記錄一切;人都會犯錯;寫錯題本;忘掉煩惱
事實上,不管多麼優秀的人都有很多缺點。
先開始,不要猶豫
人類一個非常明顯的缺點是猶豫。很多問題其實是模糊的,在我們面對它時,很難預測出未來的走向。
如果一個人的履歷非常光鮮,那麼他或許就會非常猶豫要不要開始一件事,因為創新總是概率性的。這樣的猶豫就會破壞 「創新」 本身,因為創新需要的不是猶豫,而是做完了再看看有沒有成果 —— 門後的世界我們無法猜測出來。
弗萊明發現青黴素並非刻意為之,而是因為他首先開始了實驗,並對意外現象保持了敏銳的觀察力。學術循環中,行動先於完美是基本法則。那些等待 「靈感降臨」 或 「完美時機」 的人往往一事無成。正如愛因斯坦所言:「我沒有特殊才能,我只是狂熱地好奇。」 這種好奇心驅使他不斷嘗試,而不是等待靈感。
記錄一切
創新依賴於記錄,而非記憶。人的記憶很不可靠,有非常陡峭的衰退曲線。我看我一個月以前的文檔其實經常會覺得 這個文檔寫的真的很精彩,真的是我寫的嗎?有時候會覺得很荒誕。在過去 13 年,我寫了上萬個文檔,記錄了我的所思所想。我會記錄一切,然後忘掉它們,清空我的大腦。
記錄不僅是為了防止遺忘,更是為了觀察思維的演化過程。通過回顧早期記錄,我們能看到思想的發展軌跡,識別出那些被忽視的關鍵點,這些往往是創新的源泉。
犯錯不可怕,可怕的是不從錯誤中學習。愛迪生在發明電燈泡的過程中嘗試了上千種材料,每一次失敗都是通向成功的必經之路。他說:「我並非失敗了 1000 次,而是找到了 1000 種不適合做燈絲的材料。」
在科學探索中,錯誤往往比正確更有啟發性。量子力學的發展就是一系列 「錯誤」 理論不斷修正的歷史。玻爾模型雖然最終被證明是不完備的,但它引導了量子力學的發展方向。
保持真誠
開放,坦誠;適度嚴謹,不必時刻嚴謹;接受錯誤
對待自己和其他人都有一個關鍵點:保持真誠。
所有人獲得了基礎的 critical thinking 之後,很容易就會擁有邊界感,每個人都清楚互相的邊界在哪裡,每個人都循規蹈矩,從不逾越,只做自己的事情。這會帶來一個現象,就是 「看起來所有人都是精英,但是做不成事情」。
一個典型的例子就是項目評審上可能會有很多不同職能的專家,每個專家都提出了非常多的專業意見,項目立項花了一年才通過。但是這個項目可能已經喪失了競爭力,和一年前其實不可同日而語了
另一個典型的例子就是組成了一個優秀的學術團隊,但是大家都很禮貌,尊重彼此的專業和觀點,沒有人願意指出問題,結果討論流於表面,淪為了討論哲學,無法進一步的推動事情
實際上,我們需要保持真誠,敢於挑戰模糊地帶,願意說出有一些讓其他人感覺有點冒犯的話,不把超過邊界的東西藏在心裡;同時自己也得打開心門,願意誠心誠意的接受其他人的意見。
我們經常會擔心說錯了話,或者邏輯論述不太嚴謹,以影響了其他人的理解,或者可能會被歪曲意思。但我理解不必時刻保持嚴謹,而是應該在確保自己大概嚴謹的前提下,真誠的說出自己的所有觀點,哪怕對方認為這是錯的也不要緊,錯了就改,對於個人不會有任何損失,反而個人得到了新知識,對長期大有益處。
追求全局最優
做正確的事 vs 把事情做對;過程最優 vs 結果最優;kpi vs okr
組織中常見的問題是將部分最優誤認為全局最優。學術循環根本上是一個對全局最優的不斷探索過程。
做正確的事 vs 把事情做對
「把事情做對」 是效率導向的,而 「做正確的事」 是效果導向的。高效地做錯誤的事,只會讓我們更快地達到錯誤的目的地。絕大多數失敗的項目不是因為執行不力,而是選擇了錯誤的方向。
在 deepseek 的例子中,他們不僅追求技術上的完善,更追求方向上的正確性。如果僅關注現有演算法的優化而不考慮演算法範式本身是否正確,就會像許多 ai 團隊一樣陷入局部最優的陷阱。創新需要不斷質疑:「我們是否在做正確的事?」 而不僅僅是 「我們是否把事情做對了?」
過程最優 vs 結果最優
系統通常被設計為追求過程最優:遵循規範、按時提交、沒有異常。然而,真正的創新往往來自對過程的打破。愛因斯坦不是通過嚴格遵循當時物理學的慣例得出相對論的,而是通過質疑基本假設。
在學術循環中,結果最優遠比過程最優重要。這意味著組織需要容忍 「有益的混亂」,允許規則被打破,只要它服務於更高的目標。openai 早期的文化就體現了這一點,他們不局限於學術界的標準發表流程,而是選擇最有效的方式推進研究,哪怕這意味著打破傳統。
kpi vs okr
kpi 本質上是對已知路徑的度量,而 okr 則是對未知領域的探索。當一個組織過分關注 kpi 時,往往會陷入短視和保守。kpi 驅動的團隊會優化已知的指標,而忽略潛在的突破性方向。
與之相反,okr 鼓勵設定挑戰性目標,即使這些目標可能無法完全實現。這種方式更適合面對不確定性的創新環境。位元組跳動的成功部分歸功於他們採用 okr 而非純 kpi 的管理方式,使團隊能夠超越現有邊界。
真正的創新需要勇氣去追求那些在當下看似不可能的目標。學術循環本質上是一個不斷挑戰自我認知邊界的過程,不是對已知路徑的精確執行,而是對未知領域的系統性探索。最終,成功的組織不是那些把已知事情做到極致的組織,而是那些能夠持續發現並做出正確事情的組織。
結尾
創新不是偶然,而是一個內在邏輯的必然。學術循環作為一種組織級別的智慧運行機制,本質上是對人類認知過程的系統性放大和優化。
當我們審視 deepseek、openai 和位元組跳動等案例時,我們看到的不僅是技術成就,更是一種思維模式的勝利。這種模式超越了個體天才的局限,建立了一種能夠持續產生突破的集體智慧系統。
學術循環的核心價值在於,它打破了創新的隨機性,將其轉化為一種可持續、可複製的路徑。這不是通過單一的管理技巧或團隊構成實現的,而是通過培養一種特定的思維生態系統:理性思維提供基礎,心流狀態提供動力,接受人類缺陷提供韌性,追求全局最優提供方向。
在這個系統中,創新不再依賴於罕見的天才或偶然的靈感,而是變成了一種組織能力,一種可以被刻意培養的文化特質。真正強大的組織不是那些擁有最多專家或最多資源的,而是那些能夠持續進行有效創新的組織。
最終,學術循環揭示了一個深刻的真理:創新的本質不在於技術工具或方法論,而在於我們如何組織集體思考。當一個組織能夠系統性地超越人類思維的局限,真正的突破就會像水流入低洼處一樣自然而然地出現。
這或許就是為什麼,在技術日新月異的今天,組織文化與思維模式仍然是最重要的競爭優勢——因為演算法終將被超越,但學術循環一旦形成,將成為源源不斷的創新之泉。
寫作背景
文章作者吳承霖創建了 metagpt,而 metagpt(
https://github.com/geekan/metagpt/)也展現出了一種學術循環。他們推出了世界上第一個多智能體 coding agents產品,並發表了 7 篇學術工作,在 iclr 2024 和 iclr 2025 llm agent 領域分數分別獲得第一和第二名。(以上視頻為他們的產品演示)
題圖來源:《監視資本主義:智能陷阱》