《环境与职业医学》杂志官方网站 《环境与职业医学》杂志官方网站

首页> 热点聚焦> 新闻详情页

《环境与职业医学》杂志官方网站

主办

上海市疾病预防控制中心

中华预防医学会

主管

上海市卫生和计划生育委员会

中国标准连续出版物号

ISSN 2095-9982

CN 31-1879/R

出版日期

月刊每月25日

数据库收录

  • 中国科学引文数据库(CSCD)源期刊
  • 中文核心期刊(北大核心)
  • 中国科技论文统计源期刊(科技核心)
  • 英国《全球健康》数据库
  • CABI数据库
  • 美国剑桥科学文摘(自然科学)
  • 乌利希国际期刊指南
  • 美国化学文摘(CA)数据库
  • RCCSE中国核心学术期刊(A)

假设检验和P值的再认识

随着学术界对假设检验和P值的质疑,美国统计学会(ASA)理事会于2016年2月5日发表了P值声明。究竟假设检验和P值存在何种问题和局限性?本文尝试从假设检验的历史发展切入,进行初步剖析,以供读者参考和讨论。

一、哲学背景


科学的推理过程,即推断假说(或假设)与证据(或数据)之间的关系过程,往往包含两种逻辑形式:


演绎推断和归纳推断。从统计学的角度,演绎推断是用假说来预测我们能收集的数据特征;而归纳推断是用收集的样本数据来推测最可能的假设。两种形式主要存在三个差别:


(1)演绎法是非扩充性的,即得出的结论不能超出假设的范围;归纳法是扩充性的,即可以获得超出样本数据以外的信息。


(2)有效的演绎论证,只要它的所有前提为真,则结论必然为真,因此具有可靠的确定性(有或无的判别);而归纳论证,即使它的所有前提为真,它结论的真实性,最多不过是概率比较高,因此具有相对的确定性或概率性(0~1之间变动)。


(3)演绎推理是从普遍到具体,而归纳推理是从具体到普遍。作为传统统计学的基础理论假设检验,在演绎法的逻辑基础上,进行了归纳总结,从而对科学的发展产生持久而深远的影响。


二、假设检验的历史


尽管贝叶斯理论符合常识性的思维模式,由样本来推断假设的特征,但是由于其先验概率的主观性,促使20世纪初期的科学家寻求替代的统计推断方法。在推崇演绎思维和频率或概率理论的背景下,以及证伪科学模式的提出,使现代假设检验从20世纪20年代由Ronald Fisher发展了无效假设检验(显著性检验),到20世纪30年代由Jerzy Neyman、Karl Pearson和Egon Pearson提出假设检验理论,以及随后两个理论的混合形成了现在使用的检验方法。


Fisher原始目的是把无效假设和P值当作实验者的工具,通过实验设计更容易地评估小样本的信息。他提出了判断证据强度的非正式指标P值,并采用P<0.05作为标准水平得出反对无效假设的证据。随后,一些科学家和统计学家对它的逻辑基础和实践应用提出质疑,特别是该证据的测量指标没有考虑到观察效应的大小。大样本研究的小效应同小样本研究的大效应产生相同的P值,这是现在强调置信区间而不是P值的理论基础。


鉴于P值的主观解释,Neyman和Pearson提出了“假设检验”理论,基于客观的决策方法来解释实验结果,强调从多个样本研究中获得约束性的结果。它预先决定一个决策规则,分析的结果仅仅是拒绝或接受无效假设。同Fisher更加主观的观点相比,他们没有尝试用P值来估计个体研究中反对无效假设的证据强度。Fisher方法集中在I型错误,即无效假设为真(如药物治疗无效),但实验结果却拒绝无效假设的概率。Neyman-Pearson假设检验方法(N-P检验)认为解释实验结果时存在两种类型错误。


Neyman和Pearson的想法是控制第一类错误概率在一个很小的水平条件下,尽可能使犯第二类错误的概率减小。因此,N-P检验还关注到II型错误。即通过事先固定I型和II型错误,限制了很多实验犯错误的数量。


为使用N-P检验方法,必须指定一个明确的备择假设。如只说治疗有效是不够的,必须要知道治疗有多大的效应。因此,研究者可通过指定备择假设、I型和II型错误率,来随意改变决策规则,但是这必须在实验前指定。不幸的是,研究者发现在进行研究或指定分析前,很少能确定治疗效应的精确值。代替地,只有N-P检验方法中最容易的部分,如【P<0.05(I型错误率为5%),从而拒绝无效假设】被广泛采用。这种情况导致了错误的印象,即N-P检验同Fisher方法类似。它们的术语被混合了,而且这种混合是有缺陷的或是非标准化的。实际上,在Fisher的理论里没有备择假设,他强烈反对Neyman和Pearson所提议的假设检验。


同时,无效假设的过程恰好在方法学上同Karl Popper提出科学发现的证伪模型相一致;加上医学杂志机构及医学实践的需要,混合的方法被广泛地应用到大多数的经验研究中。结果是研究者很少甚至不考虑II型错误率,从而使小样本研究中观察到的潜在重要的临床差异被判为无显著性或被忽视(类同于漏诊)。这些问题,很早就被注意到了,随后反复提出,直到成功地引起普遍关注。


三、 Fisher显著性检验同Neyman-Pearson假设检验的比较


Fisher显著性检验与N-P检验的主要差异在于假设形成(单一无效假设与两个假设)和结果解释(P值与c值),而P值同α值之间的概念混淆是造成统计学意义混乱的主要原因。Hubbard和Bayarri注意到Fisher对显著性检验和归纳推断的观点,与Neyman和Pearson对假设检验和归纳行为观点相比较,存在明显的不同。



Fisher显著性检验与N-P检验的区别:在归纳方式上,Fisher显著性检验利用P值作为对数据反对H0的归纳证据测量,该值越小,证据越强,通过归纳推断的方法来增加知识;N-P检验抛弃了归纳推断的概率,而是把假设检验作为一种决策机制来指导行为,是一种归纳行为。在假设形成上,Fisher显著性检验仅仅指定无效假设,而N-P检验提出两个假设(无效假设和备择假设),错误就出现在两个假设选择期间,即I型错误和II型错误。在对象上,Fisher显著性检验主要用于个体的样本研究,而N-P检验主要用于多个样本研究,目的是通过长期的结果使错误最小化。在判断标准上,Fisher显著性检验基于证据的P值是依赖数据的随机变量,而I型错误α是在收集数据前预先设定的,限制为某一固定值。


Fisher的显著性检验被结合到N-P的框架中,形成大致步骤:选定无效假设和备择假设,确定I型和II型错误率,然后计算检验效能(如Z)。这些步骤符合N-P检验说法。其次,计算检验统计量和P值。通过有问题的P<α标准来进行统计学检验。结果是把具有不同解释的完全不同实体结合起来,也就是把P值同I型错误率联系起来。因为两个概念都是尾部面积的概率,从而P值被错误地认为是频率为基础的“观察”的I型错误率,同时又作为反对H0的不正确的证据测量。


在结合的假设检验中,最主要的问题是在解释P<α的标准(可见表3)。例如,当阐述“P<α拒绝H0,否则接受H0”时,N-P检验的表述是进行抽样时100×α%拒绝无效假设才是可以的,而同P值本身的特定值无关。在N-P检验决策模型中,研究者只能说一个结果是否落到一个拒绝区域,而不是落在哪里(这是P值所显示的)。研究前固定0.05水平,研究者在事实后获得一个P值,如0.0024,这个精确值不能在N-P检验假设中报道。另外,由于I型错误率是在收集数据前固定的,不允许后期解释值增加或变动,如P<0.05,P<0.01等。但是这些变化的I型错误“P”被用一个证据的方式来解释P<α,如P<0.05称为“显著性”,P<0.01是“高度显著性”,P<0.001是“极度显著性”等。这就进一步造成了混淆。


4 假设检验中P值应用的局限性


在使用 P 值时,主要存在着概念和解释上的问题。


4.1概念问题


P值是指当无效假设正确时,获得等同于实际观察结果以及更极端结果的概率。Fisher显著性检验中,P值基于无效假设的事实是正确解释的关键。技术上,一个实验的P值被定义为该实验样本空间中的随机变量,以至于无效假设下它的分布是均匀的,有区间[0,1]。同样的实验可以定义很多的P值。


在传统的假设检验中,当条件概率P(Dextrem|H0)很小时,比如0.05,则拒绝无效假设。然而,一些研究者真正对概率P(H0|D)(似然法可以做到)更感兴趣,但从P值中不能推断。一些人可能认为两者是互逆的,但事件“等于或更极端观察数据”同“实际观察数据”是非常不同的。在一些情况下,P(H0|D)接近1,而P(Dextrem|H0)接近0,换句话,可能无效假设为真,我们却由于得到较小的P值而拒绝无效假设,这就是Jeffreys-Lindley矛盾。


4.2解释问题


①P值表明数据和特定统计模型之间的不相容性(ASA原则1),即P值越小说明数据提供的证据越可能反对无效假设,否则相反。


②P值常被认为是无效假设正确的概率,或者是备选假设正确的概率。事实上,频率学家不能把概率同假设联系起来。P值不度量研究假设为真的概率(ASA原则2),只能反映数据和特定假设间的关系。


③科学结论不能仅仅基于一个P值是否通过某特定阈值(诸如“P<0.05”)来判断(ASA原则3)。此外,检验的显著性水平应该在接触数据前由解释数据的机构来决定,而不是当检验完成后同P值或任何其他计算的统计量比较而得到的。


④不能只报告有显著性的因素,应该报告所有相关分析结果的P值。正确恰当的推断要求完整的报告和透明度(ASA原则4)。


⑤P值不能表明观察效应的大小或重要性(ASA原则5),P值的大小并不意味着较大或较重要效应的出现,较大P值不一定意味着缺乏重要性或没有效应。因为任何效应,不论多小,如果样本量足够大或测量精度足够高,总能产生一个小的P值。应该在报告P值的同时,提供样本统计量和效应大小的可信区间。


⑥P值本身不对模型或假设提供一个好的度量(ASA原则6)。若没有背景或其他证据,P值提供的信息非常有限。


此外,从研究目的角度考虑,如研究者做结论时考虑控制误差,即质量控制,那么N-P检验方法对于决策是最好的。但是,这要计算I型和II型错误所需要的样本,而不是习惯采用α=0.05,缺乏效能分析来检测群体的效应大小。而且在研究前固定α水平,不能仅仅利用P<α作为判断有无统计学意义的标准。如果研究目的是基于证据的(大多数),那么Fisher的P值使用是适当的。无论何时,尽可能报道确切的P值。


4.3判断结论


从定性的角度看,检验结果可能接受或拒绝无效假设,但拒绝无效假设并不意味着任何特定的备择假设就能解释数据。反过来,假设检验的陈述强调了无效假设是不能被证明的,只能是被反证(拒绝)。如果无效假设真是虚假的,那么可以增加足够大的样本来获得希望小的P值。但是对于小样本,要小心接受无效假设。如果不考虑效能分析的话,往往会得出错误的结论。Shaver认为效能分析也存在问题,他建议真实效应大小应该更好地通过置信区间来解决。有两个原因导致了不加区别地使用显著性检验:研究者关注统计学显著性而忽视了实际的重要性,甚至对没有实践重要性的结果,仅仅是因为有统计学显著性而去研究。


5  改进方法

 

很多学者在传统统计学的基础上提出了改进方法,如提供相应的置信区间、贝叶斯可信区间、P-rep、条件频率学检验、似然比以及Bayes因子。最为简便的方法是提供可信区间,它提供了检验效应大小的范围,避免了P值和假设检验的判定,在目前的医学文献中已经常使用,但是它常被作为假设检验验证的另一种方式,而不是通过可信区间去判断实际的生物学意义。值得注意的是,更好的数据分析策略是关注效应估计,而不是检验结果。


总之,P值和假设检验的使用具有其存在的广泛价值,但是在使用过程中要注意到P值存在的局限性。结合ASA的6个原则,合理使用统计分析结果,对于科学研究的探索具有十分重要的意义。


参考文献:

金辉,邹莉.假设检验和P值的再认识[J].环境与职业医学,2017,34(2):95-98.



《环境与职业医学》杂志官方网站
《环境与职业医学》杂志官方网站