Hello,
這裡是壹腦雲科研圈,我是大衚衕學~
今天我們繼續我們的《心理學報》統計自檢系列,想要了解往期內容的同學歡迎點擊以下鏈接:
乾貨 | 答編輯/審稿人問之效果量和置信度
乾貨 | 答編輯/審稿人問之樣本量大關
前不久,小編聽到了這樣一個有趣的故事:
2009年,一名加州大學神經學家Craig M. Bennett 在一次國際學術會議上做了個題目為《大西洋死鮭魚對人類神經活動的觀察》的報告。
報告中,這名神經學家與他的研究團隊把一些人類的照片給一條死魚看,然後用功能性磁共振成像設備掃描死魚的腦袋。他們發現這條死魚竟然能夠「正確地」判斷出照片中人類的情緒。
雖然只是搞笑,但這個研究揭示了一個深刻的道理,人類是容易輕信的,我們會試圖尋找世間萬物的聯繫,即使找到的僅僅是錯誤的聯繫。
該研究小組就是想要諷刺那些裝模作樣的研究:當腦科學家掃描大腦的時候把大腦分成成千上萬個極小的區域,即使是在掃描死魚的時候,死魚大腦上每個極小的區域也會隨機出現一些噪音。
這些噪音中,很可能會有一些看起來跟照片上人的情緒變化相匹配。說白了,這跟看見天上的雲一樣,甲說它像狗,乙說它像貓。
那如何去避免這種問題?答案可以從今天的顯著性檢驗、假設檢驗、零假設顯著性檢驗和貝葉斯因子中進行探尋。
1
零假設顯著性檢驗
踩坑一:接受拒絕,曖昧不清
顯著性檢驗由Ronald Fisher於1925年提出。在顯著性檢驗中P值表示的是實際數據與原假設一致的程度,P值越小,實際數據與原假設一致的可能性就越低,則越有可能拒絕原假設。
但是在這裡面,沒有提到備擇假設,也沒有涉及「接受」某個假設。例如證明結果不拒絕原假設代表沒有證據證明原假設是錯誤的,但是沒有說明原假設的正確性。
踩坑二:一刀全切,濫殺無辜
基於這個觀念,Jerzy Neyman 和 Karl Pearson 提出了「假設檢驗」(也簡稱N-P假設檢驗),同時提出拒絕原假設的臨界值,將之命名為顯著性水平(significance level),通常用α表示。
Neyman認為考慮原假設的前提是需要構建一個合理的備擇假設。而原假設與備擇假設並不同等對待,往往研究者希望拒絕的假設作為原假設。在幾年後,Neyman引入了置信水平和置信區間,作為原假設成立的前提下不拒絕原假設概率的度量。
總而言之,假設檢驗的思路是在控制一類錯誤的條件下進行的,所以設定顯著性水平實際上是在設定犯一類錯誤的概率,在控制一類錯誤的情況下使得犯二類錯誤的概率盡量小,即統計功效盡量大。
以上兩種方法存在一個矛盾的地方,也就是根據Fisher的顯著性檢驗理論,P值為0.051或0.048在做出結論的時候權重幾乎一致,而按照N-P假設檢驗理論,結論就相反了。
解決方法:二者結合,揚長避短
許多研究者也一致致力於去解決這個問題,在他們的努力下,零假設顯著性檢驗(Null Hypothesis Significance Testing,NHST)的模式逐步形成,它是一種混合模式:
第一步,根據實際問題的要求,提出原假設H0及備擇假設H1。如:a1, a2, a3, a4, a5,…, an是取自正態總體N(μ,σ)的一組樣本, μ0為該總體的均值,μ為該樣本的均值,則有原假設H0: μ=μ0,備擇假設:μ≠μ0(雙尾)。
第二步,根據總體分布情況及方差是否已知,選擇合適的統計量。當總體方差σ2已知時,選用Z統計量;當總體方差σ2未知時,選用t統計量。
第三步,給定顯著性水平α,確定相應臨界值水平。顯著性水平α表示假設H0為真時拒絕原假設的概率,也就是拒絕原假設所面臨的風險,表明原假設為真時,檢驗統計量落在其拒絕區域內的概率只有α,而落入其接受區域內的可能概率是1-α。
第四步,依據假設檢驗的規則,由樣本數據計算出檢驗統計量的實際值,與查表獲得的臨界值進行比較,視實際值落入接受區域還是拒絕區域,做出是否拒絕原假設H0的結論。
為更精確地反映判斷的風險度,進而在第四步中選擇採用P值作為是否拒絕原假設決策的依據。
該模式的基本思想是:事先指定顯著性水平和檢驗功效,然後計算P值,如果P值小於事先指定的顯著性水平,則拒絕原假設。
自此,建立原假設與備擇假設、選定檢驗統計量、選擇顯著性水平、確定拒絕域或計算P值、做出統計判斷,逐步成為標準化的假設檢驗步驟。NHST 模式及P值也逐漸成為諸多專業期刊的通用假設檢驗標準。
2
貝葉斯因子檢驗
踩坑三:過度依賴,發表偏倚
儘管NHST是目前社會科學研究最常用的統計推斷方法,研究者通常希望得到P<0.05的結果以證明研究理論,但是這可能導致發表偏倚(publication bias)的問題。也就是說,當研究結果顯示P<0.05時,論文通常會被發表;相反,P≥0.05無法拒絕原假設的論文通常不會被發表。
解決方法:貝葉斯因子檢驗前來助陣
這樣一來,讀者可能只會看到那些得到顯著性結果的研究,這種篩選機制會誤導讀者對研究問題的認知。發表偏差問題的核心在於預先給定的顯著性水平。在這個情況下,研究者們建議考慮NHST的替代方法:貝葉斯因子檢驗。
貝葉斯因子是反映樣本信息對原假設的支持程度。關於貝葉斯因子的具體原理今天不做具體闡述,重點闡述對貝葉斯因子計算結果對應的假設成立的判斷情況。
貝葉斯因子是貝葉斯假設檢驗指標,同樣需要界定原假設H0與備擇假設H1。貝葉斯因子(BF01)量化了數據在假設H0下比在假設H1下更有可能被觀測到的程度,換言之,BF01衡量了H0相對於H1受到數據支持的程度。比如,BF01=5表示數據對H0的支持程度是H1的5倍。
那貝葉斯因子為多大或多小時,將接受或拒絕原假設呢?與NHST不同,貝葉斯因子是一個連續值,一般不作二分(拒絕或不拒絕)判斷,而是量化假設受到數據支持的程度。
如果貝葉斯因子在1附近,則對原假設或備擇假設均沒有偏好,即貝葉斯因子無法決定,很可能需要更多的數據來證明哪個假設是正確的。事實上,閾值的設定是人為的,甚至是主觀的。
根據貝葉斯因子的實際大小,研究者可做出H0受到數據支持的程度是H1的x倍的推斷結論。不做二分判斷以及拋棄使用閾值,能夠使貝葉斯因子檢驗在一定程度上避免社會科學研究的不可重複實現的問題。
當使用貝葉斯因子對原假設和備擇假設進行評估時,兩個假設的地位是相等的,即並不需要像傳統那樣首先假設原假設為真。在貝葉斯因子的框架下,H0與H1隻是兩個研究者所關心的假設。
通過觀測數據結合先驗信息,貝葉斯因子能夠得出兩個假設受到數據支持的相對證據。這意味著貝葉斯因子既可以判定備擇假設優於原假設,也同樣可以得到原假設優於備擇假設的結論。
將原假設與備擇假設放在同等位置,當數據支持原假設時同樣能夠得到有效的結論,使得分析結果「不顯著」的文章同樣有可能被發表,也有助於研究的可重複性。
總結為一句話就是:P值是原假設成立的條件下出現當前觀測值或更極端觀測值的概率,貝葉斯因子確定的是在當前數據條件下哪個模型相對更合理。
目前已有很多軟體能夠實現貝葉斯因子的計算,包括R包、JASP等。這些軟體均能自動設定參數,研究者僅需輸入數據並指定數據分析使用的模型(如t檢驗、方差分析模型)和關心的研究假設,即可得到研究假設的貝葉斯因子。
儘管我們不推薦使用貝葉斯因子閾值進行假設檢驗,但研究者可能希望在一次數據分析時得到更明確的結論。
同時,雖然我們認為使用貝葉斯因子檢驗假設能夠在一定程度上避免發表偏差和研究不可重複性的問題,但不同的參數設定、軟體選擇仍會導致不同的分析結果。
要進一步克服這些問題,預註冊研究(preregistration)是當前研究者比較推薦的形式。如果預註冊報告被接受,研究者將實際開展數據收集與分析工作,並報告結論,無論得到多大的貝葉斯因子,文章都會被發表。
目前,開放科學中心(Centre for Open Science)已提供研究的預註冊以及眾多預註冊模板,也有許多的重要期刊鼓勵預註冊研究,如Psychological Science、《心理學報》等。
今天的分享就到此結束,關注我們,了解更多心理統計知識~
參考文獻
[1] Fisher, R. A. (1992). Statistical methods for research workers. In Breakthroughs in statistics (pp. 66-70). Springer, New York, NY.
[2] Neyman, J. (1937). Outline of a theory of statistical estimation based on the classical theory of probability. Philosophical Transactions of the Royal Society of London, 231(767), 333-380.
[3] 程開明 & 李泗娥.(2019).科學研究中的P值:誤解、操縱及改進. 數量經濟技術經濟研究(07),117-136. doi:10.13653/j.cnki.jqte.2019.07.007.
[4] 王晨霞.(2021).定量研究中的複製性研究與貝葉斯因子分析法(碩士學位論文,哈爾濱工業大學.
https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFDTEMP&filename=1021901094.nh
[5] 胡傳鵬,孔祥禎,Eric-Jan Wagenmakers,Alexander Ly & 彭凱平.(2018).貝葉斯因子及其在JASP中的實現. 心理科學進展(06),951-965.
作者|大衚衕學
排版|Uka
校對|喵君姐姐 昆昆