《自然》:當學術界擁抱算法,62%科學家依賴AI背後的生產力悖論

信息來源:https://www.nature.com/articles/d41586-025-03936-2

威利出版社2025年10月發佈的調查顯示,62%的受訪研究人員在日常科研工作中使用人工智能工具,這一比例較2024年的45%大幅躍升。但在效率提升的光環背後,越來越多證據揭示出一個令人不安的現實:對AI工具的依賴正在改變科學研究的基本性質,而這些改變的長期影響可能遠比表面上的時間節省更加深遠。

這項針對超過2400名研究人員的調查發現,85%的受訪者認為AI提高了工作效率,77%認為增加了產出量,73%認為提升了工作質量。但同一調查也顯示,87%的科學家擔憂AI的"幻覺"錯誤,這一比例較2024年的81%顯著上升。這種矛盾態度折射出學術界正處於技術變革的十字路口:既渴望AI帶來的便利,又對其可能引發的風險深感警惕。

算法加速下的學術生態變遷

發表在預印本平台arXiv上的一項研究通過分析1980至2024年間6790萬篇論文,識別出超過100萬篇由AI輔助完成的學術論文。研究發現,使用AI的科學家發表論文數量更多、引用次數更高,並且比未使用AI的同行提前四年成為研究團隊負責人。這些數字看似證明了AI對個人職業發展的積極作用,但作者同時警告,AI可能正在降低科學的多樣性,因為它傾向於加速成熟且數據豐富的領域,而對新興或跨學科方向的支持有限。

這種擔憂在其他研究中得到印證。《自然》期刊2025年發表的分析指出,大型語言模型正在重塑科學方法論,但其影響並非單向度的生產力提升。斯坦福大學人工智能研究所發佈的2025年AI指數報告顯示,雖然AI在要求嚴苛的基準測試中表現持續改善,但其在科研應用中的可靠性仍存在系統性缺陷。

MIT媒體實驗室的報告揭示了更令人震驚的數據:95%的企業AI試點項目未能實現可衡量的投資回報。這一現象在學術界同樣存在——許多研究團隊引入AI工具後,發現其對實質性科研突破的貢獻遠低於預期。哈佛商業評論將AI生成的低質量內容稱為"工作垃圾",認為這些產出正在摧毀而非提升生產力。

幻覺問題:從技術缺陷到認知風險

AI的"幻覺"現象本質上是預測誤差而非精神錯亂。聯合國大學的分析指出,將這種現象稱為"幻覺"可能模糊了問題的真正性質——它是系統設計固有的缺陷,而非偶然故障。OpenAI最新研究解釋了語言模型產生幻覺的機制:當模型被訓練為必須給出答案而非承認"我不知道"時,它會生成表面可信但實際錯誤的內容。

這一問題在科學研究中尤為危險。《科學》雜誌的報道顯示,AI被訓練為自信地偽造它不知道的答案,這與科學精神中的誠實性原則根本對立。較新的AI平台聲稱已減少科學論文引用方面的幻覺,但牛津大學數學家奈傑爾·希欽指出,真正的危險在於研究人員會想當然地認為AI模型是正確的,而不去驗證其邏輯和推理過程。

超過60%的受訪研究人員表示,他們在工作中會使用人工智能。圖片來源:MD Abu Sufian Jewel/NurPhoto via Getty

墨爾本斯威本科技大學天體物理學家馬修·貝利斯分享了一個典型案例:他團隊的一名學生使用ChatGPT生成代碼,但未進行測試就提交了論文,結果導致計算錯誤。這種現象並非個例。科學研究的幻覺率數據顯示,頂級模型的平均錯誤率為3.7%,但某些情況下可高達16.9%。在處理數百萬條數據的天文學研究中,即使3.7%的錯誤率也可能導致數萬個錯誤結論。

理解缺失:效率提升的隱性代價

AI工具對科研工作流程的滲透正在改變研究人員的思維模式。貝利斯使用Anthropic開發的Claude插件版本創建宇宙虛擬模擬系統,將其定位為"輔助教師",用於模擬球狀星團演化並展示黑洞中子星形成過程。他認為這一工具的教育潛力"非常巨大",但同時強調必須培養學生對結果的批判性評估能力。

這種擔憂指向一個更深層次的問題:當AI能夠快速生成答案時,研究人員是否還有動力去深入理解問題本身?《美國國家科學院院刊》發表的研究探討了使用大型語言模型與傳統網絡搜索對學習深度的影響,結論顯示LLM可能降低用戶的認知投入,因為它提供的即時答案減少了探索和思考的必要性。

希欽警告,AI在科研中的最大危險是可能導致"學術懶惰",因為研究人員不再需要理解答案正確或錯誤的原因。這種現象在編程領域尤為明顯。大量研究人員使用ChatGPT等工具生成代碼,但對代碼邏輯缺乏基本理解。ACM數字圖書館的研究證實,雖然使用LLM編程能顯著提高速度,但程序員對生成代碼的理解程度明顯下降。

職業生涯早期研究者的高風險敞口

威利調查顯示,處於職業生涯早期的科學家以及物理科學領域的研究人員最可能成為AI的早期採用者。這一發現值得關注,因為早期職業階段正是研究人員建立基礎技能和科學直覺的關鍵時期。如果過度依賴AI工具,他們可能錯過培養獨立判斷能力和方法論嚴謹性的機會。

METR組織2025年7月發佈的隨機對照試驗研究了早期AI工具對經驗豐富的開源開發者生產力的影響,結果出人意料:允許使用AI工具的組別完成任務的時間反而增加了19%,與預期的效率提升完全相反。研究者認為,這是因為開發者花費大量時間驗證和修正AI生成的代碼,而這一過程的時間成本抵消了初始生成的速度優勢。

這一發現與廣泛流傳的AI生產力敘事形成鮮明對比。Anthropic公司分析了10萬個真實的Claude對話,估算AI帶來的生產力提升,但這類由AI公司資助的研究往往選擇性地關注積極案例。聖路易斯聯邦儲備銀行的分析指出,宏觀層面的生產力數據並未顯示出與AI採用率相匹配的增長,表明微觀層面的效率提升可能被其他因素抵消。

尋找平衡:批判性採納而非盲目擁抱

儘管存在諸多風險,完全拒絕AI工具也並非明智之舉。貝利斯團隊使用AI識別中子星特徵已近十年,這項技術確實幫助他們從海量數據中快速篩選候選目標。關鍵在於研究人員必須保持批判性思維,像對待所有科學成果一樣對AI輸出保持懷疑態度。

《自然》子刊發表的綜述強調,大型語言模型在系統綜述和元分析中具有潛在價值,但必須明確其局限性。《科學直通車》的指南建議,學術寫作中使用AI工具應遵循透明度原則,明確披露AI的使用方式和範圍,並確保人類研究者對最終成果承擔完全責任。

教育層面的干預至關重要。貝利斯強調,必須教會學生如何驗證答案,這需要培養對結果合理性的直覺判斷能力。當AI給出一個物理常數或統計結果時,研究人員應該能夠根據量綱分析、數量級估算或領域知識快速判斷其可信度。這種技能的培養不能被AI效率所取代。

威利調查中87%的研究者對AI錯誤的擔憂,以及對數據安全和倫理問題的關注,表明學術界對這一技術變革保持着必要的警惕。當AI採用率從45%躍升至62%的同時,擔憂比例從81%上升至87%,這種同步增長本身就是一個積極信號——科學界並未被技術樂觀主義蒙蔽,而是在實踐中逐漸認識到工具的雙重性。

未來的學術生態可能需要建立更明確的AI使用規範,包括強制性的驗證流程、同行評審中對AI使用的專門審查,以及研究生培養中對批判性AI素養的系統訓練。正如希欽所說,科技進步不應導致學術標準的降低,而應推動我們更深刻地理解什麼是真正有價值的科學工作。