乾貨|那些年,統計檢驗踩過三大坑

2022年09月28日04:24:14 心理 1197

乾貨|那些年,統計檢驗踩過三大坑 - 天天要聞


Hello,

這裡是壹腦雲科研圈,我是大衚衕學


今天我們繼續我們的《心理學報》統計自檢系列,想要了解往期內容的同學歡迎點擊以下鏈接:


乾貨 | 答編輯/審稿人問之效果量和置信度

乾貨 | 答編輯/審稿人問之樣本量大關


前不久,小編聽到了這樣一個有趣的故事:


2009年,一名加州大學神經學家Craig M. Bennett 在一次國際學術會議上做了個題目為《大西洋死鮭魚對人類神經活動的觀察》的報告。


報告中,這名神經學家與他的研究團隊把一些人類的照片給一條死魚看,然後用功能性磁共振成像設備掃描死魚的腦袋。他們發現這條死魚竟然能夠“正確地”判斷出照片中人類的情緒。


雖然只是搞笑,但這個研究揭示了一個深刻的道理,人類是容易輕信的,我們會試圖尋找世間萬物的聯繫,即使找到的僅僅是錯誤的聯繫。


該研究小組就是想要諷刺那些裝模作樣的研究:當腦科學家掃描大腦的時候把大腦分成成千上萬個極小的區域,即使是在掃描死魚的時候,死魚大腦上每個極小的區域也會隨機出現一些噪音。


這些噪音中,很可能會有一些看起來跟照片上人的情緒變化相匹配。說白了,這跟看見天上的雲一樣,甲說它像狗,乙說它像貓。


那如何去避免這種問題?答案可以從今天的顯著性檢驗、假設檢驗、零假設顯著性檢驗和貝葉斯因子中進行探尋。


1

零假設顯著性檢驗

踩坑一:接受拒絕,曖昧不清


顯著性檢驗由Ronald Fisher於1925年提出。在顯著性檢驗中P值表示的是實際數據與原假設一致的程度,P值越小,實際數據與原假設一致的可能性就越低,則越有可能拒絕原假設。


但是在這裡面,沒有提到備擇假設,也沒有涉及“接受”某個假設。例如證明結果不拒絕原假設代表沒有證據證明原假設是錯誤的,但是沒有說明原假設的正確性。


踩坑二:一刀全切,濫殺無辜


基於這個觀念,Jerzy Neyman 和 Karl Pearson 提出了“假設檢驗”(也簡稱N-P假設檢驗),同時提出拒絕原假設的臨界值,將之命名為顯著性水平(significance level),通常用α表示。


Neyman認為考慮原假設的前提是需要構建一個合理的備擇假設。而原假設與備擇假設並不同等對待,往往研究者希望拒絕的假設作為原假設。在幾年後,Neyman引入了置信水平和置信區間,作為原假設成立的前提下不拒絕原假設概率的度量。


總而言之,假設檢驗的思路是在控制一類錯誤的條件下進行的,所以設定顯著性水平實際上是在設定犯一類錯誤的概率,在控制一類錯誤的情況下使得犯二類錯誤的概率盡量小,即統計功效盡量大。


以上兩種方法存在一個矛盾的地方,也就是根據Fisher的顯著性檢驗理論,P值為0.051或0.048在做出結論的時候權重幾乎一致,而按照N-P假設檢驗理論,結論就相反了。


解決方法:二者結合,揚長避短


許多研究者也一致致力於去解決這個問題,在他們的努力下,零假設顯著性檢驗(Null Hypothesis Significance Testing,NHST)的模式逐步形成,它是一種混合模式:


第一步,根據實際問題的要求,提出原假設H0及備擇假設H1。如:a1, a2, a3, a4, a5,…, an是取自正態總體N(μ,σ)的一組樣本, μ0為該總體的均值,μ為該樣本的均值,則有原假設H0: μ=μ0,備擇假設:μ≠μ0(雙尾)。


第二步,根據總體分布情況及方差是否已知,選擇合適的統計量。當總體方差σ2已知時,選用Z統計量;當總體方差σ2未知時,選用t統計量。


第三步,給定顯著性水平α,確定相應臨界值水平。顯著性水平α表示假設H0為真時拒絕原假設的概率,也就是拒絕原假設所面臨的風險,表明原假設為真時,檢驗統計量落在其拒絕區域內的概率只有α,而落入其接受區域內的可能概率是1-α。


第四步,依據假設檢驗的規則,由樣本數據計算出檢驗統計量的實際值,與查表獲得的臨界值進行比較,視實際值落入接受區域還是拒絕區域,做出是否拒絕原假設H0的結論。


為更精確地反映判斷的風險度,進而在第四步中選擇採用P值作為是否拒絕原假設決策的依據。


該模式的基本思想是:事先指定顯著性水平和檢驗功效,然後計算P值,如果P值小於事先指定的顯著性水平,則拒絕原假設。


自此,建立原假設與備擇假設、選定檢驗統計量、選擇顯著性水平、確定拒絕域或計算P值、做出統計判斷,逐步成為標準化的假設檢驗步驟。NHST 模式及P值也逐漸成為諸多專業期刊的通用假設檢驗標準。


2

貝葉斯因子檢驗

踩坑三:過度依賴,發表偏倚


儘管NHST是目前社會科學研究最常用的統計推斷方法,研究者通常希望得到P<0.05的結果以證明研究理論,但是這可能導致發表偏倚(publication bias)的問題。也就是說,當研究結果顯示P<0.05時,論文通常會被發表;相反,P≥0.05無法拒絕原假設的論文通常不會被發表。


解決方法:貝葉斯因子檢驗前來助陣


這樣一來,讀者可能只會看到那些得到顯著性結果的研究,這種篩選機制會誤導讀者對研究問題的認知。發表偏差問題的核心在於預先給定的顯著性水平。在這個情況下,研究者們建議考慮NHST的替代方法:貝葉斯因子檢驗


貝葉斯因子是反映樣本信息對原假設的支持程度。關於貝葉斯因子的具體原理今天不做具體闡述,重點闡述對貝葉斯因子計算結果對應的假設成立的判斷情況。


貝葉斯因子是貝葉斯假設檢驗指標,同樣需要界定原假設H0與備擇假設H1。貝葉斯因子(BF01)量化了數據在假設H0下比在假設H1下更有可能被觀測到的程度,換言之,BF01衡量了H0相對於H1受到數據支持的程度。比如,BF01=5表示數據對H0的支持程度是H1的5倍。


那貝葉斯因子為多大或多小時,將接受或拒絕原假設呢?與NHST不同,貝葉斯因子是一個連續值,一般不作二分(拒絕或不拒絕)判斷,而是量化假設受到數據支持的程度。


如果貝葉斯因子在1附近,則對原假設或備擇假設均沒有偏好,即貝葉斯因子無法決定,很可能需要更多的數據來證明哪個假設是正確的。事實上,閾值的設定是人為的,甚至是主觀的。


根據貝葉斯因子的實際大小,研究者可做出H0受到數據支持的程度是H1的x倍的推斷結論。不做二分判斷以及拋棄使用閾值,能夠使貝葉斯因子檢驗在一定程度上避免社會科學研究的不可重複實現的問題。


當使用貝葉斯因子對原假設和備擇假設進行評估時,兩個假設的地位是相等的,即並不需要像傳統那樣首先假設原假設為真。在貝葉斯因子的框架下,H0與H1隻是兩個研究者所關心的假設。


通過觀測數據結合先驗信息,貝葉斯因子能夠得出兩個假設受到數據支持的相對證據。這意味着貝葉斯因子既可以判定備擇假設優於原假設,也同樣可以得到原假設優於備擇假設的結論。


將原假設與備擇假設放在同等位置,當數據支持原假設時同樣能夠得到有效的結論,使得分析結果“不顯著”的文章同樣有可能被發表,也有助於研究的可重複性。


總結為一句話就是:P值是原假設成立的條件下出現當前觀測值或更極端觀測值的概率,貝葉斯因子確定的是在當前數據條件下哪個模型相對更合理。


目前已有很多軟件能夠實現貝葉斯因子的計算,包括R包、JASP等。這些軟件均能自動設定參數,研究者僅需輸入數據並指定數據分析使用的模型(如t檢驗、方差分析模型)和關心的研究假設,即可得到研究假設的貝葉斯因子。


儘管我們不推薦使用貝葉斯因子閾值進行假設檢驗,但研究者可能希望在一次數據分析時得到更明確的結論。


同時,雖然我們認為使用貝葉斯因子檢驗假設能夠在一定程度上避免發表偏差和研究不可重複性的問題,但不同的參數設定、軟件選擇仍會導致不同的分析結果。


要進一步克服這些問題,預註冊研究(preregistration)是當前研究者比較推薦的形式。如果預註冊報告被接受,研究者將實際開展數據收集與分析工作,並報告結論,無論得到多大的貝葉斯因子,文章都會被發表。


目前,開放科學中心(Centre for Open Science)已提供研究的預註冊以及眾多預註冊模板,也有許多的重要期刊鼓勵預註冊研究,如Psychological Science、《心理學報》等。


今天的分享就到此結束,關注我們,了解更多心理統計知識~


參考文獻

[1] Fisher, R. A. (1992). Statistical methods for research workers. In Breakthroughs in statistics (pp. 66-70). Springer, New York, NY.

[2] Neyman, J. (1937). Outline of a theory of statistical estimation based on the classical theory of probability. Philosophical Transactions of the Royal Society of London, 231(767), 333-380.

[3] 程開明 & 李泗娥.(2019).科學研究中的P值:誤解、操縱及改進. 數量經濟技術經濟研究(07),117-136. doi:10.13653/j.cnki.jqte.2019.07.007.

[4] 王晨霞.(2021).定量研究中的複製性研究與貝葉斯因子分析法(碩士學位論文,哈爾濱工業大學.

https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFDTEMP&filename=1021901094.nh

[5] 胡傳鵬,孔祥禎,Eric-Jan Wagenmakers,Alexander Ly & 彭凱平.(2018).貝葉斯因子及其在JASP中的實現. 心理科學進展(06),951-965.


作者|大衚衕學

排版|Uka

校對|喵君姐姐 昆昆


乾貨|那些年,統計檢驗踩過三大坑 - 天天要聞

心理分類資訊推薦

人的情緒為什麼會突然出現 - 天天要聞

人的情緒為什麼會突然出現

情緒的突然出現通常是由多種因素引起的,包括但不限於以下幾個方面:### 未解決的內心創傷人們可能在過去的經歷中遭受了某些創傷,這些創傷在潛意識中留下了痕迹。當遇到類似的情境或觸發點時,這些潛在的創傷可能會導致情緒的突然爆發[1]。
N+1孤獨症家庭康養項目啟動,勸募大使發布倡導書 - 天天要聞

N+1孤獨症家庭康養項目啟動,勸募大使發布倡導書

第三十四次全國助殘日:"N+1孤獨症(農村)家庭康養項目"勸募大使董家樂發布關愛孤獨症倡議書。尊敬的志願者哥哥姐姐大家好,我叫董家樂,來自鄭州四十七中。今年5月19日是第34次全國助殘日,很榮幸以勸募大使身份參加本次助殘日主題活動。您了解孤獨症嗎?
心理學專業,可沒那麼簡單!解讀心理學就業方向及就業前景 - 天天要聞

心理學專業,可沒那麼簡單!解讀心理學就業方向及就業前景

#頭條創作挑戰賽#孩子上大學,想學心理學專業,那你知道心理學在大學裡面,到底需要學習哪些內容嗎?從心理學專業畢業,未來是幹什麼的?以及這個專業的就業怎麼樣?好不好找工作?圍繞這幾個問題,今天這篇文章,我們就詳細來解讀下——心理學。
社會弱勢群體生存現狀:精神病患者遭虐待引發公眾關注與反思 - 天天要聞

社會弱勢群體生存現狀:精神病患者遭虐待引發公眾關注與反思

近日讀罷南國早報全媒體記者李慧子的相關採訪報道,不禁對社會中的弱勢群體生存狀況有了深入的思考。其中涉及一名精神病患者阿華在敬老院受虐待的案例,此舉引發公眾強烈反響及傳媒廣泛關注。藉由此案,我們既可洞見敬老院管理失范之現狀,亦能對社會對弱勢群體的態度與處理方式進行反思。
抑鬱焦慮症強迫症導致人格改變,是馴化思維的結果,要學會... - 天天要聞

抑鬱焦慮症強迫症導致人格改變,是馴化思維的結果,要學會...

從心理層面來說,抑鬱症、焦慮症、強迫症都會經歷漫長的思維馴化過程。由此被馴化後的思維模式導致刻板的條件反射,形成行為方式跟認知方式,經年累月下沉到潛意識層面,逐步滲透並影響對這個世界的看法、對人生的態度以及對價值的取向,導致抑鬱性人格跟焦慮性人格。
發生在我身上的怪事,心靈感應或者第六感真的存在嗎? - 天天要聞

發生在我身上的怪事,心靈感應或者第六感真的存在嗎?

今天,我想用自己的親身經歷來告訴大家,人類的心靈感應或者第六感,是真實存在的,不接受任何反駁!我們知道,人的第六感是“超感官知覺”的俗稱,又稱“心覺”,此能力能透過正常感官之外的管道接收訊息,能預知將要發生的事情,與當事人之前的經驗累積所得的推斷無關。
心理聊吧|你在生活中出現過“情緒勞動”嗎? - 天天要聞

心理聊吧|你在生活中出現過“情緒勞動”嗎?

近日,#親密關係中的情緒勞動是什麼#這個網絡話題,引起了很多網友關注,有網友評論說,“情緒勞動是耐心、愛心、操心的複合詞,整天忙忙碌碌很辛苦,還不一定能得到對方認可”。記者注意到,這一說法得到了很多點贊認可。
藝術助我釋放情緒,找回丟失的「鬆弛感」 - 天天要聞

藝術助我釋放情緒,找回丟失的「鬆弛感」

如今快節奏的生活、精神上的緊張和疲勞,導致我們常常忽視或壓抑自己的內在情緒:壓抑自我:習慣忽略自己的真正需求,而一味地取悅別人;持續焦慮:不想「內卷」,但競爭壓力太大,也不敢真的放鬆下來;束縛心靈:身邊有太多框架規則,囚禁住了那個曾經熱愛探索、渴望自由的你。
分房睡久了,男人的心理會發生什麼變化? - 天天要聞

分房睡久了,男人的心理會發生什麼變化?

在現代社會中,由於各種原因,夫妻分房睡的現象越來越普遍。那麼,分房睡久了,男人的心理會發生什麼變化呢?讓我們一起來探討一下。一、孤獨感增加當男人習慣了與伴侶同床共枕,突然分房睡會讓他們感到孤獨。在夜晚,沒有伴侶的陪伴,他們可能會感到寂寞和失落。