p

p[註 1]假设检验中假设零假设为真时观测到至少与实际观测样本相同极端的样本的概率。[2][3]很小的p值说明在零假设下观测极端结果的发生概率很小。学术出版物中常常报告假设检验p值。p值由于其确切意义难以掌握而屡遭误用;对p值的误用是元科学的主要课题。[4][5]

简介

p值(p value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果p值很小,说明在原假设下极端观测结果的发生概率很小。而如果出现了,根据小概率原理,就有理由拒绝原假设;p值越小,拒绝原假设的理由越充分[3]

对于一个统计模型的参数空间,把参数空间划分为两个不相交的集合,然后给定的随机样本,想检验参数在哪一个划分的空间

构造的拒绝域是 对于一个可以探测参数的统计量,定义拒绝域为该统计量大于阈值的形式:

那么,一个拥有拒绝域是的假设检验方法,则该检验的统计功效函数被定义为

一个检验的检验水准(size)是犯第一类错误概率的上确界。我们称一个检验具有显著性水平,如果它的检验水准小于等于,即

假定对于所有小数,存在一个显著性水平为的检验,其拒绝域是,那么p值的数学定义是满足包含关系的最小

也就是说p值是被定义为拒绝零假设的最低显著性水平

p值是基于数据的检验统计量算出来的概率值。如果p值是5%,也就是说,如果以此为界拒绝原假设的话,那么只有5%的可能性犯错。原假设是对的,但却拒绝了,这是错误的。所以说p值越大,拒绝原假设的理由越不充分。如果p值接近于0,拒绝原假设,那么几乎不可能犯错,于是说明数据是极其不符合原假设。

换言之,是假說檢定零假设成立或表现更严重的可能性。p值若与选定显著性水平(0.05或0.01)相比更小,则虛無假設会被否定而不可接受。然而这并不直接表明原假设正确。通常在连续分布的假设下,p值是一个服从[0,1]区间均匀分布随机变量,在实际使用中因样本等各种因素存在不确定性。近100年来,统计学家使用p值来描述数据的统计显著性,这种方法造成了许多人在工作中把统计显著性的阈值(事先给定值)强行假定为大于等于实际显著性(实际数据计算出的p值),于是强行拒绝原假设,做出了很多不科学的决策。p值产生的结果可能会带来争议[6]。2018年,由72位科学家组成的小组在《自然·人类行为》上发表了一篇名为《重新定义统计意义》的评论文章,赞同将统计显著性的阈值从0.05调整到0.005。这样就使得科研人员不能强行让如此小的统计显著性阈值大于实际数据计算出来的p值。这篇文章的主要作者本杰明认为:“这是一个不完美的短期解决方案,但可以立即实施。我担心的是,如果我们不立即做这事,我们将失去变革的动力,而我们最终将花费所有的时间争论理想化的解决方案。”

在科学研究的许多领域,p值小于0.05被认为是确定实验数据可靠性的金标准。这个标准支持了大多数已发表的科学结论,违反这一标准的论文很难发表,而且也很难得到学术机构的资助。然而,即使是费雪也明白,统计显著性的概念以及支撑它的p值具有相当大的局限性。几十年来,科学家也逐渐意识到了这些局限性。

历史

1925年,英国遗传学家兼统计学家罗纳德·费雪(Ronald Fisher)出版了《研究者的统计方法》(Statistical Methods for Research Workers)一书。这本书的书名在当时看起来并不会“畅销”,但实际上这本书却取得了巨大的成功,而且还使费雪成为现代统计学之父。在这本书中,他着眼于研究人员如何将统计检验理论应用于实际数据,以便基于数据得出他们所发现的结论。当使用某个统计假设来做检验时,该检验能够概述数据与其假设的模型之间的兼容性,并生成一个p值。 费雪建议,作为一个方便的指南,研究人员可以考虑将p值设为0.05。对于这一点,他专门论述道:“在判断某个偏差是否应该被认为是显著的时候,将这一阈值作为判断标准是很方便的。”他还建议,p值低于该阈值的结论是可靠的,因此不要把时间花在大于该阈值的统计结论上。因此,费雪的这一建议诞生了p小于0.05等价于所谓的统计显著性,这成了 “显著”的数学定义。

注释

  1. p值是否采用斜体、大写、连字符在各文献格式中有所不同。AMA格式使用"P value";APA格式使用"p value";美国统计协会使用"p-value".[1]


参考资料

  1. (PDF). [2021-02-01]. (原始内容存档 (PDF)于2017-10-10).
  2. Aschwanden, Christie. . FiveThirtyEight. 2015-11-24 [11 October 2019]. (原始内容存档于2019-09-25).
  3. Wasserstein, Ronald L.; Lazar, Nicole A. . The American Statistician. 7 March 2016, 70 (2): 129–133 [2021-02-01]. doi:10.1080/00031305.2016.1154108. (原始内容存档于2019-06-30). 已忽略未知参数|doi-access= (帮助)
  4. Hubbard, Raymond; Lindsay, R. Murray. . Theory & Psychology. 2008, 18 (1): 69–88. doi:10.1177/0959354307086923.
  5. Ioannidis, John P. A.; 等. (PDF). Nature Human Behaviour. January 2017, 1: 0021 [2021-02-01]. doi:10.1038/s41562-016-0021. (原始内容存档 (PDF)于2019-09-24) (英语). 已忽略未知参数|s2cid= (帮助)
  6. Denworth Lydia,张慧铭(译). (PDF). 环球科学. 2019, 21 [2020-02-17]. (原始内容存档 (PDF)于2020-02-17).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.