4.28
知識分子
the intellectual
圖源:unsplash / andres siimon
摘要:
本文認為,人工智慧革命,尤其是大語言模型的興起,其最重要的意義並不只是自動化,而在於複雜信息以及人類 know-how 的承載、複製與共享方式發生了根本變化。從這個角度看,ai for science 之所以尤其重要,是因為它改變的不僅可能是科研效率,還可能是科學協作、科學發現、科研出版與科研評價的整體結構。本文勾勒了 ai 從科研工具逐步走向科研合作者的路徑,並討論 ai 可能如何根本性地重塑科研出版。文章同時指出,如果要讓 ai 在原創性科學發現中發揮真正作用,持續學習和思想多樣性是兩個關鍵前提。
撰文|祁曉亮(斯坦福大學leinweber理論物理研究所)
● ● ●
01
背景:大語言模型帶來了什麼
基於深度神經網路的 ai 在過去十幾年中發展迅速,但與此前的進展相比,大語言模型(llm)帶來的革命尤其深遠。在現代物理學中,人們越來越認識到信息具有基礎性地位,它甚至可能是時空和物質規律背後更深層的概念。我認為,這一輪新的 ai 革命,也可以從信息的角度來理解。
考察一個複雜系統時,關鍵在於其中最重要的信息是如何被控制、承載和處理的。換句話說,我們應該問:最複雜的信息處理是如何完成的,它依賴什麼樣的載體,而這種載體又如何改變整個系統整體的動力學。從這個角度看,當下的 ai 革命並不只是一次技術升級,而是地球上信息動力學歷史中的一個新階段。
信息動力學的三次重大轉變
作者聲明:該圖片由ai生成
在地球歷史上,複雜信息的主要載體與處理者經歷了幾次重大轉變。每一次轉變改變的不只是信息傳遞的速度,也改變了適應、學習和群體演化的結構。
第一次重大轉變是生命的出現。以 dna 和 rna 為信息載體,生命系統的特徵和行為得以跨代存儲、複製和修改。生物演化之所以可能,正是因為有用的信息不再隨著單個個體的死亡而消失,而是能夠在漫長時間尺度上被保存、積累和不斷優化。在這個階段,複雜信息的複製與處理嵌入在生命本身之中。
第二次重大轉變是人類語言的出現。語言使經驗、記憶和知識能夠在人與人之間、代與代之間直接傳遞,而不必等待生物遺傳。與遺傳演化相比,語言與文化的演化速度快得多。人類社會得以通過交流、教育和書寫不斷積累思想、制度與技術。從這個意義上說,人類文明中最關鍵的信息動力學過程,從基於 dna 的演化,轉向了基於語言的文化演化。
第三次重大轉變就是當下的 ai 革命。以人類語言為起點,ai 模型正越來越能夠在統一框架中表示和處理多種信息,包括文本、圖像、音頻、視頻和結構化數據。這意味著,在人類歷史上第一次,最複雜的信息處理不再只是人腦的專屬領域。此前的信息技術革命極大改善了信息的存儲、傳輸與檢索,但最深層的解釋、綜合與判斷仍然依賴人類認知。機器可以執行被明確定義的程序,卻無法廣泛參與對複雜、開放式信息的靈活處理。
大語言模型標誌著一種質變。雖然它們還沒有達到人類水平的通用智能,但其能力覆蓋面的廣度,已經使它們在許多信息處理任務上可以與人類相比較。因此,這一輪革命的意義並不只是機器算得更快、搜得更高效,而是機器的信息處理複雜度跨過了一個重要門檻。這也正是為什麼 ai 革命應當被理解為人類歷史上前所未有的事件。如果說人類語言相對於生物演化加速了文明的演化,那麼在人類與 ai 共生的時代,文明的演化速度可能還會進一步加快,並且發生在更短的時間尺度上。
大語言模型革命帶來的根本變化
大語言模型革命帶來的最根本變化,是人類 know-how 正開始變得可以被大規模複製和共享。在我看來,這一點比任何單一應用都更重要。在 ai 出現之前,人類已經能夠通過書籍、論文、公式、軟體和形式化指令來共享顯性知識。然而,人類真正能力的一大部分並不以完全顯性的形式存在,它更多表現為 know-how:由經驗形成的判斷、做事的直覺、解決問題的習慣、對語境的理解,以及面對真實情境中細微變化時的應對能力。
傳統上,這類 know-how 只能通過密切的人際互動來傳遞。它需要學徒式訓練、重複練習、觀察、糾正,以及往往持續很長時間的合作。教材可以解釋原理,卻無法完整傳達專家究竟是怎樣工作的;論文可以呈現結果,卻通常不會寫出那些失敗的嘗試、中間的判斷、實踐中的技巧,以及獲得結果所依賴的語境理解。也正因為如此,知識可以被廣泛傳播,而經驗卻很難被複制。這種差距一直限制著人類能力擴散的速度。
大語言模型正在從根本上改變這種狀態。通過學習大規模的人類語言記錄,並在真實任務中與用戶直接互動,ai 系統能夠吸收並重現那些此前只存在於人類實踐中的推理、解釋、決策與任務分解模式。它們不只是存儲顯性的知識表述,也能夠具備可操作的專業能力:面對問題時如何切入、下一步該問什麼、工作流應當怎樣組織,以及如何把一般性原則適配到具體語境中。
這也是為什麼 ai 會帶來一種新的生產力。它最深層的貢獻並不只是狹義上的自動化,而是對人類 know-how 的大規模複製與分發。那些過去依賴面對面傳授的能力,現在至少有一部分可以被編碼進 ai 系統並廣泛共享。從這個意義上說,ai 擴展了專業經驗的社會傳播半徑。它讓那些過去局部的、脆弱的、難以遷移的實踐經驗,變得更容易獲取、復用與組合。
我認為,這正是 ai 革命的核心。關鍵問題不只是機器能否完成任務,而是機器能否承載並傳遞那些過去只有通過高成本的人際教學才能傳遞的人類能力。一旦 know-how 變得可以規模化複製,教育、科研、生產和協作的組織方式都會隨之改變。這是 ai 形成新生產力最根本的機制,也是它的影響遠遠超出一般技術進步的原因。
02
ai for science
基於前面的觀察,ai 革命會給各個領域都帶來根本性變化。在它的諸多應用中,最重要的也許是它對創新活動本身的改變,因為這種改變最有可能創造長期且深遠的價值。正因為如此,我們尤其需要認真討論 ai 會如何影響科學與技術領域,因為這裡的核心任務是拓展知識前沿併產生真正新的思想。在更早的技術階段,新工具可以提高科研效率,但並不會直接改變創新過程本身。相比之下,大語言模型帶來了這樣一種可能性:ai 在科學發現中參與的角色,不再只是工具,也可能成為合作者。在這一節中,我將先討論當前科學研究的主要挑戰,再討論 ai for science 所帶來的機會,最後討論 ai 仍然面臨的難題以及下一步的發展方向。
科學研究的痛點
作者聲明:該圖片由ai生成
為了理解 ai 會給科研帶來什麼,我們需要先回顧當前科學研究普遍面臨的一些問題。不同學科的挑戰當然並不完全相同,但其中有幾類是高度共通的:
1. 時間成本:了解領域進展、學習他人的工作,需要耗費大量時間。
2. 隱性知識的流失:研究過程中積累的大量「中間」經驗與數據並不會完整體現在論文中,導致後來者不得不從頭摸索。
3. 協作規模受限:科研合作的規模受到人與人溝通成本的約束,因此大規模協作以及跨學科合作都很困難。
4. 行政性負擔:寫論文、審稿、寫基金申請,以及在研究結束後向他人解釋工作內容等非創造性任務,會消耗大量時間。
正如背景部分所討論的,這些問題更深層的原因在於:顯性知識可以被廣泛共享,而人類經驗與 know-how 卻難以轉移。在科學研究中,這種區別尤其重要。論文可以記錄最終結果、形式化方法和經過選擇的證據,但它通常無法完整保留一項工作真正是怎樣做出來的。科研中很多關鍵要素都是沒有明確記錄的:如何選擇一個值得做的方向、如何避免無效嘗試、如何調試實驗或代碼、如何判斷一個意外結果究竟是錯誤還是發現,以及當真實條件偏離論文中的理想假設時應如何調整方法。結果是,每一位新學生或新合作者,都必須花很多時間去重建那些實際上已經存在於共同體中、卻沒有被完整傳遞的實踐理解。這也是為什麼科研訓練緩慢、跨學科合作困難、很多結果在實踐中難以復現的重要原因之一。如果這一層科研 know-how 能夠被更有效地捕捉和共享,那麼科研協作的速度與結構都會發生根本變化。這正是 ai 革命打開的最重要可能性之一。
科學研究的智能體化
作者聲明:該圖片由ai生成
大語言模型在科學研究中的應用已經開始展開,ai 智能體正在生物、數學、化學、理論物理和機器學習等領域輔助科研。雖然當前應用仍然處在探索階段,但許多領域的研究者已經識別出越來越多有意義的使用場景[1][2][3][4][5][6][7]。我相信,ai 最終會給各學科的科學研究帶來根本性的巨大變化。同時,這種變化並不會以一種事先設計完成的系統形式突然到來。它更可能是在一個開放共同體中被逐步探索出來的:在這個共同體里,人類研究者和 ai 系統學習如何協作,並一步步重塑科研流程。
我把這一過程稱為科學研究的智能體化。這裡的關鍵並不只是 ai 成為更好的工具,而是它在科研真實工作流中逐漸獲得更強的自主性、連續性與在場性。在這一小節中將討論這種變化的幾個維度。大體上,我會從近期、具體的變化出發,逐步走向更長期、更結構性的變化。
ai 使用科研工具
ai 參與科學研究的第一步,是讓 ai 能夠使用研究者真正依賴的工具[2][8][9][10][11][12][13]。在理論研究中,這包括計算軟體、模擬包、編程環境、資料庫和算力資源;在實驗研究中,這包括儀器控制軟體、數據採集系統、參數調節界面以及過程監控系統。沒有這樣的接入能力,ai 就仍然被限制在聊天框里。它可以提出建議、給出解釋,但還不能直接參与真實的科研過程。
一旦 ai 能夠使用科研工具,它的角色就會發生質變。它可以從「告訴人類應該做什麼」,轉向「直接完成工作的一部分」。隨著模型能力提升,這一能力一開始可能體現為完成簡單、重複的任務,但它會逐步擴展到更長、更複雜的工作流,甚至包括對意外情況的響應。從這個意義上說,工具使用賦予了 ai 在科研世界中的「身體」。它使 ai 能夠貫穿整個過程持續在場,而不是只在零散的諮詢時刻出現。
這一步之所以重要,不僅因為它提高效率,也因為它對 ai 自身後續的發展至關重要。當 ai 被嵌入真實工作流之後,它就能接觸到傳統訓練語料中沒有的重要科研數據與實踐反饋。這些內容包括失敗的嘗試、中間狀態、儀器行為、流程中的決策,以及高度依賴語境的調整。對於構建真正能參與前沿研究、而不只是擅長課本式推理的系統而言,這類數據是關鍵性的。
重複性工作的自動化
當 ai 獲得了必要的工具接入之後,接下來的優先事項並不是立刻追問它是否能夠提出重大新思想。一個更實際、也更高產的第一步,是先讓它接手科研中那些常規、重複的工作。這很像初學研究生的成長路徑。人類研究者也是先通過受約束、可重複的任務來熟悉科研工作流,然後才逐步做出更獨立的貢獻。ai 也應當沿著類似路徑發展。
這一階段包括文獻調研、前人工作的整理、標準流程的實現、理論或實驗分析中可復現的部分、儀器調試、目標明確的測量、參數掃描、數據清洗,以及常規報告或總結的準備等等。這些任務常常非常耗時,但並不是原創性的主要來源。將它們自動化,可以立刻減輕研究者負擔,讓更多人類精力投入判斷、解釋和創造性思考。
同樣重要的是,這一階段也給了 ai 一個在完整科研過程中積累經驗的機會。通過參與常規工作,ai 可以逐步學習科研項目實際上是怎樣推進的、瓶頸在哪裡,以及人類研究者偏好怎樣協作。最有效的人機合作模式在不同學科之間很可能差異很大,這些模式大概率不是事先設計出來的,而是通過實踐逐步發現出來的。隨著 ai 能力增強,它所能承擔任務的複雜度也就可以一步步提高。
從工具走向合作者
在前兩個階段的基礎上,ai 可能最終跨過一個重要門檻:從工具走向合作者。這個門檻在不同學科中可以有不同定義,但一個很實際的標準是,它是否能在一個科研項目里做出與研究生相當的貢獻。如果在一項具體科研工作中,一個 ai 系統的貢獻真的可以與一位人類學生共同作者相比較,那麼即使它相對人類仍然有明顯短板,它也已經進入了科研的內部空間,而不再只是一個外部輔助工具[14][9][8][6][11]。
這個門檻之所以重要,是因為它標誌著「誰在參與定義創新前沿」發生了變化。在此之前,ai 主要是在幫助人類執行或加速人類已經定義好的任務;而在此之後,ai 開始影響科學發現本身的方向、結構與內容。如今,ai 給出有價值建議、提出新假設、發現意外聯繫的案例已經開始出現,這類情況未來很可能會越來越常見。
由於 ai 能力提升得很快,一旦它到達「合作者」階段,也可能意味著它在某些維度上超過人類並不會太遙遠。因此,我們可以把「作者級別的科研貢獻」看作 ai for science 的一種新型圖靈測試。這裡的核心問題不再是 ai 能否模仿人類對話,而是它能否以接近被公認的人類貢獻者的水平,參與可發表科學知識的生產。
新型跨學科合作
隨著 ai 能力增強,它還有可能降低學科之間的壁壘。許多重要的科學機會都出現在學科交界處,但這類合作往往受到語言、方法、背景知識和研究文化差異的限制。ai 可以幫助跨學科翻譯概念、總結陌生文獻、連接工具與數據集,並降低原本阻礙深入合作的溝通成本。
這件事之所以重要,是因為跨學科工作往往最容易帶來重大突破,但同時也是人類協調最困難的地方。一個生物學家、一個物理學家和一個機器學習研究者,也許各自掌握著某項新發現所需知識的一部分,但把這些部分真正拼在一起需要大量協調成本。ai 可以在這些領域之間充當一個積極的介面,讓合作更容易發起,也更容易持續地產出成果[15][16]。ai 參與這類合作,還會進一步催生新的合作平台與合作模式,就像早年的萬維網和 arxiv.org 深刻改變了科學交流與協作一樣。
科研出版的智能體化
科學研究的智能體化,最終也將擴展到科研出版本身。今天,科研結果通常通過靜態論文來呈現,而這種形式會把一個複雜的研究過程壓縮成有限且高度標準化的表達。正如前文所說,這種格式非常適合存檔顯性知識,但並不適合傳遞科研 know-how 的完整深度。
當 ai 以合作者的身份深度參與科研之後,一個自然的結果就是新的出版形式:我們發表的可能不再只是論文,而是直接發布智能體本身。這樣,一項科研成果就不再只由靜態文檔來代表,還可以由一個可交互的 ai 智能體來代表。這個智能體能夠解釋研究背景、所用方法、推理過程、中間判斷以及相關工具介面;它還可以幫助復現工作中的部分內容、重新運行標準分析,甚至進一步擴展原有項目。舉例來說,讀者不再只是閱讀論文的 methods 部分,而可以直接向這個科研智能體詢問:為什麼採用某個近似?考慮過哪些替代路線?如果修改某個假設,結論會怎樣變化?現有論文還沒有直接提出「把科研智能體本身作為發表對象」,但圍繞端到端 ai 科研系統、ai 作者與審稿,以及出版界如何應對 ai 的相關工作,已經表明科學產出正逐步走向更強的智能體介導與交互形式[17][18][19][20][21]。
這樣的智能體還可以針對不同受眾自適應地調整解釋方式。它可以給學生提供簡潔的概念介紹,給專業研究者提供技術性更強的說明,也可以給試圖在此基礎上繼續推進工作的研究者提供偏實現層面的指南。從這個意義上說,出版將不再像是存放一份靜態記錄,而更像是部署了一個通向科研成果本身的「活介面」。這會顯著減少複雜工作在被壓縮成傳統論文形式時所損失的隱性知識。與此同時,出版也必須平衡兩種要求:核心科學內容必須足夠穩定,才能被引用、核查和批評;而智能體層則應當能夠面向不同受眾,以多種交互方式解釋這些內容。因此,關鍵問題在於,如何找到穩定的檔案記錄與靈活的解釋界面之間的合理組合。
智能體化出版還可能加速基於既有工作的後續研究。如果一位科學家想在前人的結果之上繼續推進,對應的科研智能體可以幫助識別關鍵假設、復現計算、定位有用數據集,或建議可能的擴展方向。更有意思的是,它還打開了智能體與智能體之間合作的可能性。如果兩篇不同工作的作者都認為新的發現可能出現在它們的交叉點上,他們就可以允許代表這些工作的智能體彼此交換想法、比較假設、探索兼容性,並生成可能的後續研究方向。人類研究者再去評估和發展其中最有前景的部分。這樣一來,智能體化出版不僅會改善科學傳播,也會創造新的科學探索機制。
在學術界,發表不僅是分享成果的方式,它也在評價與獎勵中起核心作用。在很大程度上,學術成就至今仍主要通過論文影響力來衡量。因此,科研出版的智能體化也意味著評價體系本身可能需要發生根本變化。這將回應科研共同體中一個被討論已久的問題。當前的學術出版體系已經延續了一個多世紀,存在許多眾所周知的局限:同行評審高度依賴學者的無償勞動,期刊往往同時向作者和讀者收取不菲費用;與此同時,那些對共同體極有價值的工作,例如維護一個重要的開源科研軟體庫、建設數據集或開發共享實驗平台,常常因為無法自然地裝進標準論文格式而被低估。
如果出版變得更加智能體化,就可能產生新的方式來識別和評價這類貢獻。雖然這種制度最終會以何種形式出現仍不確定,但更清楚的一點是,學術界的評價與獎勵結構將發生深刻變化。因此,從今天開始探索更低成本、更高效率、也更開放的智能體化出版平台,本身就已經很有價值。正如科學史上許多此前的轉變一樣,這類平台的最終形態,很可能也是在研究共同體的集體實驗中逐步湧現出來的。
ai for science 面臨的挑戰
作者聲明:該圖片由ai生成
上面討論的機會非常值得重視,但不應將其誤認為已經完全實現的能力。要讓 ai 從令人鼓舞的演示實驗階段真正走向對科學研究的實質性改變,仍然有幾個核心挑戰需要解決:
1. 缺少科研一線數據:模型在課本式問題上表現出色,但在真實科研場景中仍會遇到困難,因為訓練數據無法覆蓋每一個垂直細分領域的細微語境。要讓 ai 真正理解這些領域,就需要一線專家帶著 ai 進入真實科研,從而讓它接觸專業數據並進行更有針對性的訓練。
2. 缺少實時更新能力:科研中新的工具和概念不斷出現,而這些內容無法僅通過離線訓練被模型快速掌握。ai 需要具備持續學習的能力。目前,一些上下文工程協議,例如模型上下文協議(model context protocol, mcp)[22] 和智能體技能協議(agent skills protocol)[23],正在朝這一方向推進,通過把 ai 連接到工具與知識來部分地滿足這一需求。
3. 需要新的評估框架:當前的評估方法仍然大體建立在基準測試(benchmark)之上,而這種方式有兩個重要局限。第一,現有基準測試往往側重較廣泛且相對主流的領域,因此對高度專業化的研究場景不夠精確。第二,基準測試通常是問答式評估,不適合衡量一個智能體在長期科研合作中的實際表現。近期一些面向具體領域的評估工作,已經指向我們未來真正需要的那類更豐富的評估,包括長上下文科學推理任務、由專家構建的凝聚態理論問題、由專家打分的文獻理解,以及端到端可驗證的物理工作流等[24][25][26][11][27][28][29]。一旦 ai 開始以科研合作者的身份工作,我們可能需要像評價研究生一樣評價它:不只是看它能否在孤立任務中給出正確答案,更要看它在真實項目中的長期表現、從反饋中學習的能力、對工作流的可靠貢獻,以及它在具體語境中的判斷是否真正有用。如何提供這種長周期、高解析度的反饋,並把它有效納入 ai 訓練,答案仍然是未知的。
在這些挑戰之中,我認為 ai 下一步最重要的發展方向,是具備實時學習,也就是在線學習的能力[30]。與人類相比,當前 ai 系統仍然需要過多數據和過長時間,才能通過訓練獲得新能力。相較之下,人類研究者往往只需少量例子、一次簡短討論,或有限的直接經驗,就能學到很多東西。如果 ai 要更深地參與科學工作,它就必須更接近這種在線學習模式:不是只依賴緩慢的訓練周期,而是在真實任務進行中持續吸收新的工具、概念、反饋和領域實踐。
這項能力之所以重要,不只是因為它會讓 ai 更強,也因為它是思想多樣性的必要條件。創造性的科學工作並不只依賴能力本身,它同樣依賴研究者之間在視角、興趣與品味上的差異。以物理學為例,世界上有數以萬計的研究者,他們對哪些問題更重要、哪些方法更有前景、哪些反常現象值得追蹤,都有各自不同的直覺。當新的發現機會出現時,作出關鍵突破的人,往往不僅是能力更強的人,也常常是興趣和學術品味碰巧在正確方向上的人。因此,一個科研共同體要維持持續的原創發現,就必須擁有足夠的思想多樣性。
當前的 ai 模型顯然還缺乏這種多樣性[31][32]。雖然我們可以通過提示詞讓它們表現出不同「人格」,但它們對同一個問題的判斷往往仍然高度相似。如果沒有持續且多樣化學習的機制,ai 系統就會傾向於重複訓練數據中已經佔主導地位的模式,而這會使真正有創造性的工作變得困難。因此,在線學習不只是一個技術上的改進,它是 ai 能否成為科學發現中真正合作者的核心前提。一個有趣的開放問題是:要讓 ai 獲得有意義的多樣性,是否需要全新的體系結構,還是只要把上下文學習(in-context learning)做得足夠強就已經足夠。
03
總結
本文的核心論點是,ai 革命的根本意義並不只是自動化,也不只是信息檢索速度的提高,而是信息動力學本身發生了更深層的變化。在更早的歷史階段,每一次重大轉變都對應著新的複雜信息載體的出現:首先是生命中的 dna 與 rna,後來是人類文明中的語言。而當下的 ai 革命,則標誌著又一次類似的轉變。人類歷史上第一次,複雜信息處理不再局限於人腦。更重要的是,大語言模型開始使人類 know-how,而不僅僅是顯性知識,變得越來越可複製、可共享。這正是 ai 帶來新生產力最深層的來源,也是它最終可能重塑人類文明結構的原因。
從這個角度看,ai for science 之所以重要,並不只是因為科學是眾多應用領域之一,而是因為科學創新方式的變化,對 ai 與科學本身都具有格外重要的意義。對科學而言,ai 的關鍵承諾在於:它可能降低 know-how 傳遞的成本、加速協作,並最終改變新思想是如何被生成、檢驗和傳播的。對 ai 而言,科學又是最具挑戰性的環境之一,因而能夠推動ai作出最重要的進步。科學研究會把 ai 暴露在前沿問題、專門工具、真實反饋和開放式合作之中。從這個意義上說,ai for science 不只是 ai 的一個應用方向,它也是發展更強 ai 的必由之路。
正如本文所論證的,ai for science 的路線圖是漸進的。它首先要求 ai 能夠接入科研工具,從而從聊天界面走入科研的真實工作流。接著,它會經過常規與重複性工作的自動化階段,在減輕人類研究者負擔的同時積累實踐經驗。在此基礎上,ai 最終可能跨過從工具到合作者的門檻,做出可與人類學生或共同作者相比的貢獻。再往後,ai 可能幫助形成新的跨學科合作形式,並最終改變科學工作被發表和評價的方式。我把這種逐步加深的參與過程稱為科學研究的智能體化。
這一過程最重要的後果之一,就是智能體化出版的可能性。如果 ai 真正成為科研中的合作者,那麼科研出版從靜態論文演化為可交互科研智能體,就是一個自然的發展方向。這樣的智能體能夠保留更多當前在傳統出版中被丟失的推理過程、中間判斷、方法細節和實踐 know-how;它也能夠讓不同受眾更容易理解科研結果,加速後續工作,甚至支持不同成果之間新的智能體對智能體探索。因此,智能體化出版不只是影響出版業本身。它還與科學傳播機制、學術體系以及科研獎勵結構的未來都緊密相連。
與此同時,本文也強調,ai for science 的未來並不只取決於ai的能力本身。真正的科學創造力有一個根本要求,那就是思想多樣性。在人類科研共同體中,學術成就不僅依賴知識和技能,也依賴視角、興趣、品味與判斷上的差異。這些差異之所以重要,是因為它們讓共同體能夠同時探索多個方向,並識別那些原本會被忽略的機會。當前 ai 系統仍然缺乏這種多樣性。如果它們不能從不同語境和不同共同體中持續學習,就會傾向於重複訓練數據中既有的主導模式。因此,在線學習以及保持思想多樣性的機制,對於 ai 能否成為原創科學發現中真正合作者而言是一個核心問題。
總而言之,ai for science 應當被理解為一個既關乎科學、也關乎文明形態的工程。它的目標並不只是讓現有科研更快,而是建立一種新的範式,讓人類研究者與 ai 智能體共同參與知識的生產、傳遞與評價。通往這一未來的道路將需要新的工具、新的評估框架、新的合作平台以及新的出版系統;它同樣需要一個開放共同體,在真實工作中持續把人類經驗教給 ai。如果這條道路能夠成功,ai 最深遠的影響,也許不只是改變我們知道什麼,而是改變人類究竟如何創造新知識。
04
致謝
本文翻譯自英文版[33],總結了作者自 2023 年以來對 ai 革命的一些思考。相關想法的較早討論可見作者此前的一篇文章[34]以及一些講座[35][36]。本文較早的一個版本也曾發布在 https://ai4.science 論壇上[37]。作者感謝 diane greene、劉朝星、陸思銳、聶忱、許曉棟、顏丙海、嚴伯鈞和尤亦庄圍繞相關問題所進行的有益討論。作者在潤色本文時使用了大語言模型輔助(主要是通過 codex 調用 gpt-5.4)。文中的插圖由gemini網站生成。
感謝 diane greene、劉朝星、陸思銳、聶忱、許曉棟、顏丙海、嚴伯鈞、尤亦庄和barbara zhang圍繞相關問題所進行的有益討論。
[1] sébastien bubeck, christian coester, ronen eldan, et al. early science acceleration experiments with gpt-5, 2025. url https://arxiv.org/abs/2511.16072.
[2] andres m. bran, sam cox, oliver schilter, et al. augmenting large language models with chemistry tools. nature machine intelligence, 6(5):525–535, 2024. doi: 10.1038/s42256-024-00832-8. url https://doi.org/10.1038/s42256-024-00832-8.
[3] zifeng wang, lang cao, benjamin danek, et al. accelerating clinical evidence synthesis with large language models. npj digital medicine, 8:509, 2025. doi: 10.1038/s41746-025-01840-7. url https://doi.org/10.1038/s41746-025-01840-7.
[4] michael y. li, emily b. fox, and noah d. goodman. automated statistical model discovery with language models, 2024. url https://arxiv.org/abs/2402.17879.
[5] alfredo guevara, alexandru lupsasca, david skinner, et al. single-minus graviton tree amplitudes are nonzero, 2026. url https://cdn.openai.com/pdf/graviton.pdf. openai preprint pdf.
[6] michael p. brenner, vincent cohen-addad, and david woodruff. solving an open problem in theoretical physics using ai-assisted discovery, 2026. url https://arxiv.org/abs/2603.04735.
[7] sirui lu, zhijing jin, terry jingchen zhang, et al. can theoretical physics research benefit from language agents?, 2025. url https://arxiv.org/abs/2506.06214.
[8] samuel schmidgall, yusheng su, ze wang, et al. agent laboratory: using llm agents as research assistants. in findings of the association for computational linguistics: emnlp 2025, 2025. url https://aclanthology.org/2025.findings-emnlp.320/.
[9] erzhuo shao, yifang wang, yifan qian, et al. sciscigpt: advancing human-ai collaboration in the science of science. nature computational science, 2025. doi: 10.1038/s43588-025-00906-6. url https://doi.org/10.1038/s43588-025-00906-6.
[10] yi zhou. from paper to program: a multi-stage llm-assisted workflow for accelerating quantum many-body algorithm development, 2026. url https://arxiv.org/abs/2604.04089.
[11] ken deng, xiangfei wang, guijing duan, et al. towards verifiable and self-correcting ai physicists for quantum many-body simulations, 2026. url https://arxiv.org/abs/2604.00149.
[12] jiaxuan liu, tiannian zhu, caiyuan ye, et al. vaspilot: mcp-facilitated multi-agent intelligence for autonomous vasp simulations, 2025. url https://arxiv.org/abs/2508.07035.
[13] tiannian zhu, zhong fang, quansheng wu, and hongming weng. materialsgalaxy: a platform fusing experimental and theoretical data in condensed matter physics. chinese physics b, 34(12):120702, 2025.
[14] juraj gottweis, wei-hung weng, alexander daryin, tao tu, anil palepu, petar sirkovic, et al. towards an ai co-scientist, 2025. url https://arxiv.org/abs/2502.18864.
[15] linfeng zhang, siheng chen, yuzhu cai, et al. bohrium + scimaster: building the infrastructure and ecosystem for agentic science at scale, 2025. url https://arxiv.org/abs/2512.20469.
[16] jingyi chai, shuo tang, rui ye, yuwen du, xinyu zhu, mengcheng zhou, yanfeng wang, yuzhi zhang, linfeng zhang, siheng chen, et al. scimaster: towards general-purpose scientific ai agents, part i. x-master as foundation: can we lead on humanity』s last exam? arxiv preprint arxiv:2507.05241, 2025.
[17] chris lu, cong lu, robert tjarko lange, et al. the ai scientist: towards fully automated open-ended scientific discovery, 2024. url https://arxiv.org/abs/2408.06292.
[18] federico bianchi, owen queen, nitya thakkar, eric sun, james zou, et al. exploring the use of ai authors and reviewers at agents4science. nature biotechnology, 44:11–14, 2026. doi: 10.1038/s41587-025-02963-8. url https://doi.org/10.1038/s41587-025-02963-8.
[19] riccardo bertolo and alessandro antonelli. generative ai in scientific publishing: disruptive or destructive? nature reviews urology, 21:1–2, 2024. doi: 10.1038/s41585-023-00836-w. url https://doi.org/10.1038/s41585-023-00836-w.
[20] keigo kusumegi, xinyu yang, paul ginsparg, et al. scientific production in the era of large language models. science, 390(6779):1240–1243, 2025. doi: 10.1126/science.adw3000. url https://doi.org/10.1126/science.adw3000.
[21] weixin liang, yaohui zhang, zhengxuan wu, et al. quantifying large language model usage in scientific papers. nature human behaviour, 9:2599–2609, 2025. doi: 10.1038/s41562-025-02273-8. url https://doi.org/10.1038/s41562-025-02273-8.
[22] anthropic. model context protocol, 2024. url https://modelcontextprotocol.io/docs/getting-started/intro.
[23] anthropic. agent skills protocol, 2025. url https://agentskills.io/home.
[24] hao cui, zahra shamsi, gowoon cheon, et al. curie: evaluating llms on multitask scientific long context understanding and reasoning, 2025. url https://arxiv.org/abs/2503.13517.
[25] haining pan, james v. roggeveen, erez berg, et al. cmt-benchmark: a benchmark for condensed matter theory built by expert researchers, 2025. url https://arxiv.org/abs/2510.05228.
[26] haoyu guo, maria tikhanovskaya, paul raccuglia, et al. expert evaluation of llm world models: a high-superconductivity case study, 2025. url https://arxiv.org/abs/2511.03782.
[27] yanzhen wang, yiyang jiang, diana golovanova, kamal das, hyeonhu bae, yufei zhao, huu-thong le, abhinava chatterjee, yunzhe liu, chao-xing liu, et al. qmbench: a research level benchmark for quantum materials research. arxiv preprint arxiv:2512.19753, 2025.
[28] weida wang, dongchen huang, jiatong li, tengchao yang, ziyang zheng, di zhang, dong han, benteng chen, binzhao luo, zhiyu liu, et al. cmphysbench: a benchmark for evaluating large language models in condensed matter physics. arxiv preprint arxiv:2508.18124, 2025.
[29] ken deng, xiangfei wang, guijing duan, chen mo, junkun huang, runqing zhang, ling qian, zhiguo huang, jize han, and di luo. towards verifiable and self-correcting ai physicists for quantum many-body simulations. arxiv preprint arxiv:2604.00149, 2026.
[30] tongtong wu, linhao luo, yuan-fang li, et al. continual learning for large language models: a survey, 2024. url https://arxiv.org/abs/2402.01364.
[31] dawei wang, difang huang, haipeng shen, and brian uzzi. a large-scale comparison of divergent creativity in humans and large language models. nature human behaviour, 2025. doi: 10.1038/s41562-025-02331-1. url https://doi.org/10.1038/s41562-025-02331-1.
[32] qianyue hao, fengli xu, yong li, james evans, et al. artificial intelligence tools expand scientists』 impact but contract science』s focus. nature, 649:1237–1243, 2026. doi: 10.1038/s41586-025-09922-y. url https://doi.org/10.1038/s41586-025-09922-y.
[33] xiao-liang qi. the agentification of scientific research: a physicist』s perspective, 2026. url https://arxiv.org/abs/2604.14718.
[34] xiao-liang qi. time, information and artificial intelligence. physics, 2024. doi: 10.7693/wl20240601. url https://wuli.iphy.ac.cn/cn/article/doi/10.7693/wl20240601. chinese article; page title also gives the english title 「time, information and artificial intelligence」.
[35] xiao-liang qi. teaching and mentoring the ai scientists, april 2025. url https://pirsa.org/25040066. pirsa:25040066.
[36] xiao-liang qi. teaching and mentoring the ai scientists. youtube video, october 2025. url https://www.youtube.com/watch?v=vykyt1ablvo. title inferred from the corresponding pirsa lecture link supplied by the author.
[37] xiao-liang qi. a brief perspective on the artificial intelligence revolution. ai4.science discussion forum post, january 2026. url https://forum.ai4.science/t/a-brief-perspective-on-the-artificial-intelligence-revolution/65. posted january 19, 2026.