干货|那些年,统计检验踩过三大坑

2022年09月28日04:24:14 心理 1197

干货|那些年,统计检验踩过三大坑 - 天天要闻


Hello,

这里是壹脑云科研圈,我是大胡同学


今天我们继续我们的《心理学报》统计自检系列,想要了解往期内容的同学欢迎点击以下链接:


干货 | 答编辑/审稿人问之效果量和置信度

干货 | 答编辑/审稿人问之样本量大关


前不久,小编听到了这样一个有趣的故事:


2009年,一名加州大学神经学家Craig M. Bennett 在一次国际学术会议上做了个题目为《大西洋死鲑鱼对人类神经活动的观察》的报告。


报告中,这名神经学家与他的研究团队把一些人类的照片给一条死鱼看,然后用功能性磁共振成像设备扫描死鱼的脑袋。他们发现这条死鱼竟然能够“正确地”判断出照片中人类的情绪。


虽然只是搞笑,但这个研究揭示了一个深刻的道理,人类是容易轻信的,我们会试图寻找世间万物的联系,即使找到的仅仅是错误的联系。


该研究小组就是想要讽刺那些装模作样的研究:当脑科学家扫描大脑的时候把大脑分成成千上万个极小的区域,即使是在扫描死鱼的时候,死鱼大脑上每个极小的区域也会随机出现一些噪音。


这些噪音中,很可能会有一些看起来跟照片上人的情绪变化相匹配。说白了,这跟看见天上的云一样,甲说它像狗,乙说它像猫。


那如何去避免这种问题?答案可以从今天的显著性检验、假设检验、零假设显著性检验和贝叶斯因子中进行探寻。


1

零假设显著性检验

踩坑一:接受拒绝,暧昧不清


显著性检验由Ronald Fisher于1925年提出。在显著性检验中P值表示的是实际数据与原假设一致的程度,P值越小,实际数据与原假设一致的可能性就越低,则越有可能拒绝原假设。


但是在这里面,没有提到备择假设,也没有涉及“接受”某个假设。例如证明结果不拒绝原假设代表没有证据证明原假设是错误的,但是没有说明原假设的正确性。


踩坑二:一刀全切,滥杀无辜


基于这个观念,Jerzy Neyman 和 Karl Pearson 提出了“假设检验”(也简称N-P假设检验),同时提出拒绝原假设的临界值,将之命名为显著性水平(significance level),通常用α表示。


Neyman认为考虑原假设的前提是需要构建一个合理的备择假设。而原假设与备择假设并不同等对待,往往研究者希望拒绝的假设作为原假设。在几年后,Neyman引入了置信水平和置信区间,作为原假设成立的前提下不拒绝原假设概率的度量。


总而言之,假设检验的思路是在控制一类错误的条件下进行的,所以设定显著性水平实际上是在设定犯一类错误的概率,在控制一类错误的情况下使得犯二类错误的概率尽量小,即统计功效尽量大。


以上两种方法存在一个矛盾的地方,也就是根据Fisher的显著性检验理论,P值为0.051或0.048在做出结论的时候权重几乎一致,而按照N-P假设检验理论,结论就相反了。


解决方法:二者结合,扬长避短


许多研究者也一致致力于去解决这个问题,在他们的努力下,零假设显著性检验(Null Hypothesis Significance Testing,NHST)的模式逐步形成,它是一种混合模式:


第一步,根据实际问题的要求,提出原假设H0及备择假设H1。如:a1, a2, a3, a4, a5,…, an是取自正态总体N(μ,σ)的一组样本, μ0为该总体的均值,μ为该样本的均值,则有原假设H0: μ=μ0,备择假设:μ≠μ0(双尾)。


第二步,根据总体分布情况及方差是否已知,选择合适的统计量。当总体方差σ2已知时,选用Z统计量;当总体方差σ2未知时,选用t统计量。


第三步,给定显著性水平α,确定相应临界值水平。显著性水平α表示假设H0为真时拒绝原假设的概率,也就是拒绝原假设所面临的风险,表明原假设为真时,检验统计量落在其拒绝区域内的概率只有α,而落入其接受区域内的可能概率是1-α。


第四步,依据假设检验的规则,由样本数据计算出检验统计量的实际值,与查表获得的临界值进行比较,视实际值落入接受区域还是拒绝区域,做出是否拒绝原假设H0的结论。


为更精确地反映判断的风险度,进而在第四步中选择采用P值作为是否拒绝原假设决策的依据。


该模式的基本思想是:事先指定显著性水平和检验功效,然后计算P值,如果P值小于事先指定的显著性水平,则拒绝原假设。


自此,建立原假设与备择假设、选定检验统计量、选择显著性水平、确定拒绝域或计算P值、做出统计判断,逐步成为标准化的假设检验步骤。NHST 模式及P值也逐渐成为诸多专业期刊的通用假设检验标准。


2

贝叶斯因子检验

踩坑三:过度依赖,发表偏倚


尽管NHST是目前社会科学研究最常用的统计推断方法,研究者通常希望得到P<0.05的结果以证明研究理论,但是这可能导致发表偏倚(publication bias)的问题。也就是说,当研究结果显示P<0.05时,论文通常会被发表;相反,P≥0.05无法拒绝原假设的论文通常不会被发表。


解决方法:贝叶斯因子检验前来助阵


这样一来,读者可能只会看到那些得到显著性结果的研究,这种筛选机制会误导读者对研究问题的认知。发表偏差问题的核心在于预先给定的显著性水平。在这个情况下,研究者们建议考虑NHST的替代方法:贝叶斯因子检验


贝叶斯因子是反映样本信息对原假设的支持程度。关于贝叶斯因子的具体原理今天不做具体阐述,重点阐述对贝叶斯因子计算结果对应的假设成立的判断情况。


贝叶斯因子是贝叶斯假设检验指标,同样需要界定原假设H0与备择假设H1。贝叶斯因子(BF01)量化了数据在假设H0下比在假设H1下更有可能被观测到的程度,换言之,BF01衡量了H0相对于H1受到数据支持的程度。比如,BF01=5表示数据对H0的支持程度是H1的5倍。


那贝叶斯因子为多大或多小时,将接受或拒绝原假设呢?与NHST不同,贝叶斯因子是一个连续值,一般不作二分(拒绝或不拒绝)判断,而是量化假设受到数据支持的程度。


如果贝叶斯因子在1附近,则对原假设或备择假设均没有偏好,即贝叶斯因子无法决定,很可能需要更多的数据来证明哪个假设是正确的。事实上,阈值的设定是人为的,甚至是主观的。


根据贝叶斯因子的实际大小,研究者可做出H0受到数据支持的程度是H1的x倍的推断结论。不做二分判断以及抛弃使用阈值,能够使贝叶斯因子检验在一定程度上避免社会科学研究的不可重复实现的问题。


当使用贝叶斯因子对原假设和备择假设进行评估时,两个假设的地位是相等的,即并不需要像传统那样首先假设原假设为真。在贝叶斯因子的框架下,H0与H1只是两个研究者所关心的假设。


通过观测数据结合先验信息,贝叶斯因子能够得出两个假设受到数据支持的相对证据。这意味着贝叶斯因子既可以判定备择假设优于原假设,也同样可以得到原假设优于备择假设的结论。


将原假设与备择假设放在同等位置,当数据支持原假设时同样能够得到有效的结论,使得分析结果“不显著”的文章同样有可能被发表,也有助于研究的可重复性。


总结为一句话就是:P值是原假设成立的条件下出现当前观测值或更极端观测值的概率,贝叶斯因子确定的是在当前数据条件下哪个模型相对更合理。


目前已有很多软件能够实现贝叶斯因子的计算,包括R包、JASP等。这些软件均能自动设定参数,研究者仅需输入数据并指定数据分析使用的模型(如t检验、方差分析模型)和关心的研究假设,即可得到研究假设的贝叶斯因子。


尽管我们不推荐使用贝叶斯因子阈值进行假设检验,但研究者可能希望在一次数据分析时得到更明确的结论。


同时,虽然我们认为使用贝叶斯因子检验假设能够在一定程度上避免发表偏差和研究不可重复性的问题,但不同的参数设定、软件选择仍会导致不同的分析结果。


要进一步克服这些问题,预注册研究(preregistration)是当前研究者比较推荐的形式。如果预注册报告被接受,研究者将实际开展数据收集与分析工作,并报告结论,无论得到多大的贝叶斯因子,文章都会被发表。


目前,开放科学中心(Centre for Open Science)已提供研究的预注册以及众多预注册模板,也有许多的重要期刊鼓励预注册研究,如Psychological Science、《心理学报》等。


今天的分享就到此结束,关注我们,了解更多心理统计知识~


参考文献

[1] Fisher, R. A. (1992). Statistical methods for research workers. In Breakthroughs in statistics (pp. 66-70). Springer, New York, NY.

[2] Neyman, J. (1937). Outline of a theory of statistical estimation based on the classical theory of probability. Philosophical Transactions of the Royal Society of London, 231(767), 333-380.

[3] 程开明 & 李泗娥.(2019).科学研究中的P值:误解、操纵及改进. 数量经济技术经济研究(07),117-136. doi:10.13653/j.cnki.jqte.2019.07.007.

[4] 王晨霞.(2021).定量研究中的复制性研究与贝叶斯因子分析法(硕士学位论文,哈尔滨工业大学.

https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFDTEMP&filename=1021901094.nh

[5] 胡传鹏,孔祥祯,Eric-Jan Wagenmakers,Alexander Ly & 彭凯平.(2018).贝叶斯因子及其在JASP中的实现. 心理科学进展(06),951-965.


作者|大胡同学

排版|Uka

校对|喵君姐姐 昆昆


干货|那些年,统计检验踩过三大坑 - 天天要闻

心理分类资讯推荐

人的情绪为什么会突然出现 - 天天要闻

人的情绪为什么会突然出现

情绪的突然出现通常是由多种因素引起的,包括但不限于以下几个方面:### 未解决的内心创伤人们可能在过去的经历中遭受了某些创伤,这些创伤在潜意识中留下了痕迹。当遇到类似的情境或触发点时,这些潜在的创伤可能会导致情绪的突然爆发[1]。
N+1孤独症家庭康养项目启动,劝募大使发布倡导书 - 天天要闻

N+1孤独症家庭康养项目启动,劝募大使发布倡导书

第三十四次全国助残日:"N+1孤独症(农村)家庭康养项目"劝募大使董家乐发布关爱孤独症倡议书。尊敬的志愿者哥哥姐姐大家好,我叫董家乐,来自郑州四十七中。今年5月19日是第34次全国助残日,很荣幸以劝募大使身份参加本次助残日主题活动。您了解孤独症吗?
心理学专业,可没那么简单!解读心理学就业方向及就业前景 - 天天要闻

心理学专业,可没那么简单!解读心理学就业方向及就业前景

#头条创作挑战赛#孩子上大学,想学心理学专业,那你知道心理学在大学里面,到底需要学习哪些内容吗?从心理学专业毕业,未来是干什么的?以及这个专业的就业怎么样?好不好找工作?围绕这几个问题,今天这篇文章,我们就详细来解读下——心理学。
社会弱势群体生存现状:精神病患者遭虐待引发公众关注与反思 - 天天要闻

社会弱势群体生存现状:精神病患者遭虐待引发公众关注与反思

近日读罢南国早报全媒体记者李慧子的相关采访报道,不禁对社会中的弱势群体生存状况有了深入的思考。其中涉及一名精神病患者阿华在敬老院受虐待的案例,此举引发公众强烈反响及传媒广泛关注。借由此案,我们既可洞见敬老院管理失范之现状,亦能对社会对弱势群体的态度与处理方式进行反思。
抑郁焦虑症强迫症导致人格改变,是驯化思维的结果,要学会... - 天天要闻

抑郁焦虑症强迫症导致人格改变,是驯化思维的结果,要学会...

从心理层面来说,抑郁症、焦虑症、强迫症都会经历漫长的思维驯化过程。由此被驯化后的思维模式导致刻板的条件反射,形成行为方式跟认知方式,经年累月下沉到潜意识层面,逐步渗透并影响对这个世界的看法、对人生的态度以及对价值的取向,导致抑郁性人格跟焦虑性人格。
发生在我身上的怪事,心灵感应或者第六感真的存在吗? - 天天要闻

发生在我身上的怪事,心灵感应或者第六感真的存在吗?

今天,我想用自己的亲身经历来告诉大家,人类的心灵感应或者第六感,是真实存在的,不接受任何反驳!我们知道,人的第六感是“超感官知觉”的俗称,又称“心觉”,此能力能透过正常感官之外的管道接收讯息,能预知将要发生的事情,与当事人之前的经验累积所得的推断无关。
心理聊吧|你在生活中出现过“情绪劳动”吗? - 天天要闻

心理聊吧|你在生活中出现过“情绪劳动”吗?

近日,#亲密关系中的情绪劳动是什么#这个网络话题,引起了很多网友关注,有网友评论说,“情绪劳动是耐心、爱心、操心的复合词,整天忙忙碌碌很辛苦,还不一定能得到对方认可”。记者注意到,这一说法得到了很多点赞认可。
艺术助我释放情绪,找回丢失的「松弛感」 - 天天要闻

艺术助我释放情绪,找回丢失的「松弛感」

如今快节奏的生活、精神上的紧张和疲劳,导致我们常常忽视或压抑自己的内在情绪:压抑自我:习惯忽略自己的真正需求,而一味地取悦别人;持续焦虑:不想「内卷」,但竞争压力太大,也不敢真的放松下来;束缚心灵:身边有太多框架规则,囚禁住了那个曾经热爱探索、渴望自由的你。
分房睡久了,男人的心理会发生什么变化? - 天天要闻

分房睡久了,男人的心理会发生什么变化?

在现代社会中,由于各种原因,夫妻分房睡的现象越来越普遍。那么,分房睡久了,男人的心理会发生什么变化呢?让我们一起来探讨一下。一、孤独感增加当男人习惯了与伴侣同床共枕,突然分房睡会让他们感到孤独。在夜晚,没有伴侣的陪伴,他们可能会感到寂寞和失落。