
最新一批研究顯示,在社會科學領域權威期刊上發表的論文中,多達半數的研究結果無法被獨立分析所復現。這一問題長期困擾著多個研究領域,在社會科學與心理學領域尤為突出,生物醫學研究領域同樣存在類似隱憂。
最新研究成果來自一項歷時七年、名為"系統化開放研究與證據置信度"(Score)的項目。該項目近期發布了三項研究,共對3900篇社會科學論文進行了分析。研究發現,發表時間較近、且要求充分共享底層數據的期刊所刊載的論文,其可復現性相對更高。與此同時,醫學研究也面臨自身的局限性:患者病例的差異性與樣本規模的有限性,使得醫學研究在實踐中有時與社會科學頗為相似,而非更接近實驗室物理學。由此可見,政策制定者在面對缺乏廣泛、紮實證據支撐的研究結論時,應保持審慎態度。
釐清概念至關重要。"可重現性"是指能否利用相同數據與方法再現研究結果;"可複製性"則是指研究結論能否在不同情境的新數據中得到驗證。科學研究鮮少產出完全一致的結果,探究其中差異本身就是知識積累的重要途徑。然而,越來越多的政客開始將不確定性轉化為否定依據,將正常的科學不確定性重新定性為研究失敗的證明。2025年5月,美國白宮發布的一項行政令著重渲染科學領域的"可重複性危機",本質上是特朗普式的質疑與不作為論調。
遺憾的是,像Score這樣的大規模核查項目極為罕見。大多數學術研究人員更傾向於將時間投入到更有助於職業發展的工作中。Score不僅對現有數據進行了再分析,還獨立開展了100餘篇論文的從頭複製研究,結果約49%的論文未能復現原始結論。這折射出一個更深層的問題。對數據進行再分析相對簡單,但完整重現一項實驗則困難得多。在社會科學和醫學研究中,實驗結果高度依賴複雜的人類系統,復現難度極大。生成式AI或許能夠輔助判斷研究方向,但無法降低複製研究所需的成本與時間。
並非所有未能複製的研究都意味著危機。某些研究結論本身影響有限;複製研究本身也可能存在缺陷。無法穩定復現的結論,在指導政策時應與更廣泛的證據體系相互權衡。將無法複製等同於研究失效,是將不確定性與無知混為一談,這可能在最需要判斷力的決策領域造成癱瘓。提高研究透明度有助於遏制學術造假,並使錯誤更易被發現。英國經濟與社會研究理事會等主要資助機構已對此提出要求,這一做法應當得到普遍推廣。
也有人持樂觀態度,認為研究"最終能夠自我糾正"。從長遠來看,通過調整激勵機制、鼓勵對已有成果進行檢驗,有助於提升研究的整體可信度,但這有賴於研究文化與資助體系的深層變革,目前在很大程度上仍停留於構想階段。上述研究應當進一步強化變革的必要性,並起到警示作用。社會科學是理解世界的有力工具,而建立公眾信任的途徑,在於正視不確定性,而非否定它。
Q&A
Q1:Score項目具體研究了什麼內容?得出了哪些結論?
A:Score(系統化開放研究與證據置信度)是一項歷時七年的大規模核查項目,共分析了3900篇社會科學論文。項目發現,約49%的論文無法復現原始研究結果。此外,研究還發現發表時間較新、且要求共享底層數據的論文可復現性更高。該項目同時開展了數據再分析與從頭複製兩類工作,是目前規模最大的社會科學研究核查項目之一。
Q2:"可重現性"和"可複製性"有什麼區別?
A:兩者含義不同。可重現性指使用相同的數據和方法,能否再次得出相同結果;可複製性則是指在新的數據和不同情境下,研究結論是否依然成立。科學研究通常不會產出完全一致的結果,差異本身也是知識積累的一部分。將二者混淆,容易導致對研究價值的誤判。
Q3:生成式AI能解決社會科學研究的可複製性問題嗎?
A:生成式AI在輔助判斷研究方向、篩選研究對象方面具有一定潛力,但無法從根本上解決可複製性問題。社會科學和醫學研究的複製難度,主要來源於複雜的人類系統與高昂的時間、資金成本,這些都是目前AI技術尚無法有效降低的現實障礙。