摘要: 本文介绍了经典统计学派(P值 显著性水平)在数理统计中的地位,分析了P值及显著性水平的含义以及应该如何正确理解P值。指出了P值的优点及不足之处。并对两个学派的假设检验进行了比较和述评,给出了单参数假设检验时P值的计算公式。 Abstract: Bayesians have a lot of controversy on P values for such a long time. The role is introduced which played by P values in mathematical statistics and the meaning and level of significance of P value is analyzed and how to correctly understand P value is discussed. Further more, the advantages and disadvantages have been summarized. Finally, two formulas is derived for calculating the P value when testing the statistical hypotheses on the parameter of geometric distribution and uniform distribution. 关键词: P值;显著性水平;假设检验;贝叶斯因子 Key words: P value;level of significance;testing statistical hypotheses;Bayesian factor 中图分类号:G42 文献标识码:A 文章编号:1006-4311(2011)25-0257-02 1 背景 经典统计学派包括Gossett于1908年提出了P值检验的思想方法,Fisher在20世纪初提出以后数据平均数的计算方法的思想,以及今天使用最广泛的显著性检验是由Nehman和Pearson分别于1928年和1933年提出。如今,P值法已被广泛地应用于工农业生产、医药卫生、生物统计等诸多领域。然而,在统计学中除了P值,也许再没有哪一个概念被如此广泛的使用着的同时又是如此长期地一直倍受争议。尤其是:贝叶斯学派对于P值在假设检验中的应用有很大的争议。为此,对比假设检验中的其他方法,本文将对P值的正确理解及其优缺点进行深入分析。利用新视角方法,抛砖引玉。促进工程数学与实际问题的融合。 在实际问题中,利用样本值所提供的信息来判断总体是否具有某种指定的特征,或对(已知)参数有怀疑猜测需要证实之时,可以使用假设检验的方法,所以,统计推断和决策的重要内容和基本形式之一就是假设检验。在完全不知道总体的分布,或者不知道其参数只知道它的形式时,为了对息体的某些未知特性进行推断,提出某些与主体有关的假设,对所提出的问题是接受还是拒绝就要通过假设检验来作出决策,对与总体有关的某种假设进行检验是其核心内容。参数假设检验是假设检验中最常用的。概括来说,参数假设检验问题的提法就是:假定X1,X2,…,Xn是来自总体X(x,?兹)的一个简单随机,要检验原假设H0:?兹∈?专:是否成立,原假设的对立假设是H1:?兹∈?专1,对于上述的假设检验问题,在统计学中的处理方法有两种:一种是贝叶斯学派的方法;一种是频率学派的方法。19世纪统计学的主流是贝叶斯学派,20世纪统计学的主流是频率学派,至少大多数科学研究人员是这样认为的。频率学派的方法又可分为显著性检验和P值检验两种。如今使用最广泛的显著性检验是由Nehman和Pearson分别于1928年和1933年提出的,而P值检验则更早由Gossett于1908年提出。这两种方法的基本思想都是基于所谓概率性的反证法。假设检验依据是反证法,关键是通过推理,得到一个与常理(定理、公式、原理)相违背的结论。“概率反证法”依据的是“小概率原理”,那么多小的概率才算小概率呢?这要由实际问题的不同需要来决定。一般发生概率一般不超过5%的事件,即事件在一次试验中几乎不可能发生,以后用符号?琢记小概率,一般取?琢=0.01,0.05,0.1等。在假设检验中,若小概率事件的概率不超过?琢,则称?琢为检验水平或显著性水平。 2 对P值的真实含义 在一个假设检验问题H0:?兹∈?专对H1:?兹∈?专1中,依据的是“小概率原理”。那么多小的概率才算小概率呢?这要由实际问题的不同需要来决定。一般发生概率一般不超过5%的事件,即事件在一次试验中几乎不可能发生。以后用符号?琢记小概率,一般取?琢=0.01,0.05,0.1等。在假设检验中,若小概率事件的概率不超过?琢,则称?琢为检验水平或显著性水平。利用观测值能够做出拒绝原假设的最小显著性水平称为检验的P值,P值的值域为(0,1)。Pearson强调使用预先给定的显著性水平?琢。其实早在Pearson之前,Gossett计算H0在成立的情况下,抽样结果等于或极端于实际抽样结果的概率,Gossett强调提倡使用P值作为数据支持原假设的证据。具体做检验时,P值检验的基本作法是:选择一个检验统计量T(X),在假定原假设为真时根据样本计算此检验统计量的值T(X)及概率P=P{T(X)>T(x)},此概率即为值P,通常认为若此P值小于事先给定的显著性水平?琢,则拒绝原假设;若此P值大于事先给定的显著性水平?琢,则不拒绝原假设。其值越小(大),表明拒绝(支持)H0的证据越充分,即P值反映了样本数据对H0的支持程度,即相比N-P检验只给出拒绝或接受H0的判断,P值给出了样本数据关于假设更精确的信息。事实上,P值可以理解为:在H0成立的情况下,抽样结果等于或更极端于际抽样结果的概率。故P值也可称为样本所达到的显著性水平。 P值是在H0成立的情况下丁T(X)?叟T(x)这一事件的概率,而不是T(X)?叟T(x)成立的情况下H0成立的概率。从条件概率的角度,前者可以表示为P=P{T(X)>T(x)│H0},而后者可以表示为P=P{H0│T(X)>T(x)},这两者之间并不是等价的关系。P=P{T(X)>T(x)│H0}很小时,P=P{H0│T(X)>T(x)}并不一定很小。 3 P值检验的优缺分析 P值的优点体现在它可以很好的解决这样的问题。P值又称为观察到的显著水平?琢,依据是Fisher的著名的0.05截断点。需要注意,这种分析对统计学家几乎没有什么要求,既不不要求先验概率,也不要求似然比,只要求确定零假设。有了P值,只需将其与人们心目中的显著性水平?琢进行比较,就可以很容易地做出检验的结论。即:当?琢小于P值时保留原假设,否则拒绝原假设。也基于数据平均数的计算方法的思想。根据P值方法与根据临界值方法所得出的有关假设检验的结论总是相同的;即只要P值小于等于?琢,则检验统计量的值将小于等于临界值。P值方法的优点在于P值能够告诉我们结果有多么显著(实测显著性水平)。如果我们采用临界值方法,我们只能知道结果在规定的显著性水平是否显著。根据数据产生的P值来减小?琢的值以展示结果的精确性。自从Fisher在20世纪初提出以后,0.05显著性水平截断点被用了数百万次了,已经成为所有科学领域客观比较的标准。如果它不是在大多数时候都能产生基本正确的科学推断,它决不会被这么高频率的使用。但是0.05标准只可以用来做单个对比,而不适合一次进行3226次比较。因此,P值法的结论更加准确。另外,P值法使用很方便。在统计推断中,只要涉及假设检验问题,不论是参数的假设检验还是非参数的假设检验,统计分析软件均会给出P值,从而可以很方便地得出是否可以拒绝H0的结论。 虽然P值检验是目前广泛使用的统计推断方法,但它的缺陷是显而易见的,对固定的检验,需要事先给出显著性水平?琢,进而确定假设的拒绝域,但?琢到底给多大没有具体的标准,根据不同的显著性水平有时会得出相反的检验结果。在没有充分证据证明其错误前总是被假定为正确的,作为假设,处于被保护的位置,而那些猜测的、可能的、预期的取为备择假设,假设的目的就是用事实验证原来的理论、看法、状况等是否成立,或更明确的说用事实推翻原假设。没有被拒绝的假设不一定就是正确假设;应用P值检验仍存在一些问题,具体表现在: ①P值并不是原假设为真的概率的估计值,而是假定原假设为真时关于数据的概率,即是样本的概率。②古典统计学适合于小型的问题,最多也就是几百个数据点,几个参数,只可以用来做单个对比,而不适合一次进行上千次比较。当样本容量很大时,由P值检验几乎总是得出拒绝原假设的结论,因此,当样本容量很大时P值并不太适用,几乎失效;因而对超大型数据组的挑战而进行探索。③对于多重假设检验问题,涉及三个及三个以上的多重检验问题,利用P值检验法也不好做出判断。因此P值检验法不宜处理多重假设检验问题。对于P值检验法的不足之处,在实际工作中,可以使用贝叶斯学方法来弥补解决。 4 均匀分布和几何分布的值检验 虽然P值可简单定义为利用观测值能够做出拒绝原假设的最小显著性水平,但这样的定义并未给出一个一般性的在任何检验问题中可统一采用显著性水平?琢。事实上,P值检验可根据实际问题的不同往往具有一定的灵活性。接下来我们给出均匀分布和几何分布在单边假设检验中的P值,以此作为P值计算的实例: 4.1 设X=(X1,X2,…,Xn)是来自参数为?姿的指数分布的一组简单随机样本,考虑如下检验问题的P值: H0:?姿?叟?姿0对H1:?姿<?姿1。 参考文献: [1]朱新玲.假设检验:从P值到贝叶斯因子.统计新论,2008;(5). [2]茆诗松,程依明,濮晓龙.概率论与数理统计教程.北京:高等教育出版社,2004:353. [3] Berger J O, Sellke T.Testing a point null hypothesis: the irreconcilability of JP values and evidence. JASA,1987,82,(397):112.
摘要: 本文介绍了经典统计学派(P值 显著性水平)在数理统计中的地位,分析了P值及显著性水平的含义以及应该如何正确理解P值。指出了P值的优点及不足之处。并对两个学派的假设检验进行了比较和述评,给出了单参数假设检验时P值的计算公式。 Abstract: Bayesians have a lot of controversy on P values for such a long time. The role is introduced which played by P values in mathematical statistics and the meaning and level of significance of P value is analyzed and how to correctly understand P value is discussed. Further more, the advantages and disadvantages have been summarized. Finally, two formulas is derived for calculating the P value when testing the statistical hypotheses on the parameter of geometric distribution and uniform distribution. 关键词: P值;显著性水平;假设检验;贝叶斯因子 Key words: P value;level of significance;testing statistical hypotheses;Bayesian factor 中图分类号:G42 文献标识码:A 文章编号:1006-4311(2011)25-0257-02 1 背景 经典统计学派包括Gossett于1908年提出了P值检验的思想方法,Fisher在20世纪初提出以后数据平均数的计算方法的思想,以及今天使用最广泛的显著性检验是由Nehman和Pearson分别于1928年和1933年提出。如今,P值法已被广泛地应用于工农业生产、医药卫生、生物统计等诸多领域。然而,在统计学中除了P值,也许再没有哪一个概念被如此广泛的使用着的同时又是如此长期地一直倍受争议。尤其是:贝叶斯学派对于P值在假设检验中的应用有很大的争议。为此,对比假设检验中的其他方法,本文将对P值的正确理解及其优缺点进行深入分析。利用新视角方法,抛砖引玉。促进工程数学与实际问题的融合。 在实际问题中,利用样本值所提供的信息来判断总体是否具有某种指定的特征,或对(已知)参数有怀疑猜测需要证实之时,可以使用假设检验的方法,所以,统计推断和决策的重要内容和基本形式之一就是假设检验。在完全不知道总体的分布,或者不知道其参数只知道它的形式时,为了对息体的某些未知特性进行推断,提出某些与主体有关的假设,对所提出的问题是接受还是拒绝就要通过假设检验来作出决策,对与总体有关的某种假设进行检验是其核心内容。参数假设检验是假设检验中最常用的。概括来说,参数假设检验问题的提法就是:假定X1,X2,…,Xn是来自总体X(x,?兹)的一个简单随机,要检验原假设H0:?兹∈?专:是否成立,原假设的对立假设是H1:?兹∈?专1,对于上述的假设检验问题,在统计学中的处理方法有两种:一种是贝叶斯学派的方法;一种是频率学派的方法。19世纪统计学的主流是贝叶斯学派,20世纪统计学的主流是频率学派,至少大多数科学研究人员是这样认为的。频率学派的方法又可分为显著性检验和P值检验两种。如今使用最广泛的显著性检验是由Nehman和Pearson分别于1928年和1933年提出的,而P值检验则更早由Gossett于1908年提出。这两种方法的基本思想都是基于所谓概率性的反证法。假设检验依据是反证法,关键是通过推理,得到一个与常理(定理、公式、原理)相违背的结论。“概率反证法”依据的是“小概率原理”,那么多小的概率才算小概率呢?这要由实际问题的不同需要来决定。一般发生概率一般不超过5%的事件,即事件在一次试验中几乎不可能发生,以后用符号?琢记小概率,一般取?琢=0.01,0.05,0.1等。在假设检验中,若小概率事件的概率不超过?琢,则称?琢为检验水平或显著性水平。 2 对P值的真实含义 在一个假设检验问题H0:?兹∈?专对H1:?兹∈?专1中,依据的是“小概率原理”。那么多小的概率才算小概率呢?这要由实际问题的不同需要来决定。一般发生概率一般不超过5%的事件,即事件在一次试验中几乎不可能发生。以后用符号?琢记小概率,一般取?琢=0.01,0.05,0.1等。在假设检验中,若小概率事件的概率不超过?琢,则称?琢为检验水平或显著性水平。利用观测值能够做出拒绝原假设的最小显著性水平称为检验的P值,P值的值域为(0,1)。Pearson强调使用预先给定的显著性水平?琢。其实早在Pearson之前,Gossett计算H0在成立的情况下,抽样结果等于或极端于实际抽样结果的概率,Gossett强调提倡使用P值作为数据支持原假设的证据。具体做检验时,P值检验的基本作法是:选择一个检验统计量T(X),在假定原假设为真时根据样本计算此检验统计量的值T(X)及概率P=P{T(X)>T(x)},此概率即为值P,通常认为若此P值小于事先给定的显著性水平?琢,则拒绝原假设;若此P值大于事先给定的显著性水平?琢,则不拒绝原假设。其值越小(大),表明拒绝(支持)H0的证据越充分,即P值反映了样本数据对H0的支持程度,即相比N-P检验只给出拒绝或接受H0的判断,P值给出了样本数据关于假设更精确的信息。事实上,P值可以理解为:在H0成立的情况下,抽样结果等于或更极端于际抽样结果的概率。故P值也可称为样本所达到的显著性水平。 P值是在H0成立的情况下丁T(X)?叟T(x)这一事件的概率,而不是T(X)?叟T(x)成立的情况下H0成立的概率。从条件概率的角度,前者可以表示为P=P{T(X)>T(x)│H0},而后者可以表示为P=P{H0│T(X)>T(x)},这两者之间并不是等价的关系。P=P{T(X)>T(x)│H0}很小时,P=P{H0│T(X)>T(x)}并不一定很小。 3 P值检验的优缺分析 P值的优点体现在它可以很好的解决这样的问题。P值又称为观察到的显著水平?琢,依据是Fisher的著名的0.05截断点。需要注意,这种分析对统计学家几乎没有什么要求,既不不要求先验概率,也不要求似然比,只要求确定零假设。有了P值,只需将其与人们心目中的显著性水平?琢进行比较,就可以很容易地做出检验的结论。即:当?琢小于P值时保留原假设,否则拒绝原假设。也基于数据平均数的计算方法的思想。根据P值方法与根据临界值方法所得出的有关假设检验的结论总是相同的;即只要P值小于等于?琢,则检验统计量的值将小于等于临界值。P值方法的优点在于P值能够告诉我们结果有多么显著(实测显著性水平)。如果我们采用临界值方法,我们只能知道结果在规定的显著性水平是否显著。根据数据产生的P值来减小?琢的值以展示结果的精确性。自从Fisher在20世纪初提出以后,0.05显著性水平截断点被用了数百万次了,已经成为所有科学领域客观比较的标准。如果它不是在大多数时候都能产生基本正确的科学推断,它决不会被这么高频率的使用。但是0.05标准只可以用来做单个对比,而不适合一次进行3226次比较。因此,P值法的结论更加准确。另外,P值法使用很方便。在统计推断中,只要涉及假设检验问题,不论是参数的假设检验还是非参数的假设检验,统计分析软件均会给出P值,从而可以很方便地得出是否可以拒绝H0的结论。 虽然P值检验是目前广泛使用的统计推断方法,但它的缺陷是显而易见的,对固定的检验,需要事先给出显著性水平?琢,进而确定假设的拒绝域,但?琢到底给多大没有具体的标准,根据不同的显著性水平有时会得出相反的检验结果。在没有充分证据证明其错误前总是被假定为正确的,作为假设,处于被保护的位置,而那些猜测的、可能的、预期的取为备择假设,假设的目的就是用事实验证原来的理论、看法、状况等是否成立,或更明确的说用事实推翻原假设。没有被拒绝的假设不一定就是正确假设;应用P值检验仍存在一些问题,具体表现在: ①P值并不是原假设为真的概率的估计值,而是假定原假设为真时关于数据的概率,即是样本的概率。②古典统计学适合于小型的问题,最多也就是几百个数据点,几个参数,只可以用来做单个对比,而不适合一次进行上千次比较。当样本容量很大时,由P值检验几乎总是得出拒绝原假设的结论,因此,当样本容量很大时P值并不太适用,几乎失效;因而对超大型数据组的挑战而进行探索。③对于多重假设检验问题,涉及三个及三个以上的多重检验问题,利用P值检验法也不好做出判断。因此P值检验法不宜处理多重假设检验问题。对于P值检验法的不足之处,在实际工作中,可以使用贝叶斯学方法来弥补解决。 4 均匀分布和几何分布的值检验 虽然P值可简单定义为利用观测值能够做出拒绝原假设的最小显著性水平,但这样的定义并未给出一个一般性的在任何检验问题中可统一采用显著性水平?琢。事实上,P值检验可根据实际问题的不同往往具有一定的灵活性。接下来我们给出均匀分布和几何分布在单边假设检验中的P值,以此作为P值计算的实例: 4.1 设X=(X1,X2,…,Xn)是来自参数为?姿的指数分布的一组简单随机样本,考虑如下检验问题的P值: H0:?姿?叟?姿0对H1:?姿<?姿1。 参考文献: [1]朱新玲.假设检验:从P值到贝叶斯因子.统计新论,2008;(5). [2]茆诗松,程依明,濮晓龙.概率论与数理统计教程.北京:高等教育出版社,2004:353. [3] Berger J O, Sellke T.Testing a point null hypothesis: the irreconcilability of JP values and evidence. JASA,1987,82,(397):112.