基于ZIP模型的零膨胀检验方法的比较研究

　　摘要针对已存在关于零膨胀的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验，通过Monte Carlo模拟分析方法，在功效和犯第一类错误比例的意义下，在不同零膨胀程度、不同均值和不同样本量下对上述检验作比较研究.得到了不同条件下7种检验方法的优良性，并结合理论对7种检验方法进行分析.

　　关键词零膨胀；模拟；检验功效；第一类错误

　　中图分类号O212.1文献标识码A

　　1引言

　　计数数据是一种广泛存在于医学、保险和农林等领域的数据类型.当计数数据中零的比例超出泊松（Poisson）或负二项（NB）分布等一般计数模型的预测能力，这类现象被称为计数资料的零膨胀[1].针对存在零膨胀现象的计数数据，常见的统计分析模型有零膨胀泊松模型、零膨胀负二项回归模型等.而在用零膨胀模型对数据进行拟合分析时，首先要对数据是否存在零膨胀进行检验.关于数据是否存在零膨胀，一方面可以通过直方图等做简单的直观分析与判断，但所得结论较为粗糙[2]；另一方面可以通过建立检验统计量进行假设检验，得到较为精确的结论.1954年Cohran[3]提出了一个不考虑协变量的C检验，1956年Rao和Chakravarti[4]针对小样本量提出另一个考虑协变量的R检验，这两种检验方法只考虑响应变量的观测值，相对较为直接.1985年ElShaarawi[5]推导了基于ZIP模型下似然比检验的统计量，并通过模拟分析比较了R检验、C检验和似然比检验的功效.1995年Van den broek[6]提出了基于零膨胀泊松（ZIP）模型下的Score检验；2001年M.Xie[7]提出了基于ZIP模型的基于置信区间检验，并通过模拟方法对C检验、R检验、似然比检验、Score检验、基于置信区间的检验和卡方检验的功效进行比较；2009年Saranya Numna[8]提出了基于ZIP模型下的Wald检验.

　　本文在基于ZIP模型条件，通过Monte Carlo模拟分析方法，在功效和犯第一类错误比例的意义下，对上述的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验在不同零膨胀程度、不同均值和不同样本量下作比较研究.

　　2零膨胀模型及零膨胀检验方法介绍

　　2.1零膨胀泊松（ZIP）模型

　　零膨胀（ZI）模型的基本思想是认为事件的发生数来自于两部分：一部分随机变量的取值只为零（这部分零称为结构零），另一部分来自一个离散分布（此时的零称为抽样零），由此可得零膨胀模型的一般形式是：

　　再对图1的模拟结果进行分析.首先考虑λ变化、n不变条件下观察不同零膨胀的功效.从图1模拟结果看出，随着λ的增大，Wald检验和基于置信区间的检验与其他5种检验的功效差距逐渐增大.

　　然后考虑n变化、λ不变条件下观察不同零膨胀的功效.从图1可以看出，当n比较小（如n=20，50）时，R检验和C检验的功效高于其他检验的功效.当n比较大，ω比较小（如n=100，200，ω0.05）时，7种检验方法的功效差别不明显.

　　综合模拟结果可知，大多数情况，R检验法和C检验法对零膨胀检验的功效高于其他5种检验，其它检验的功效大小依次为：Score检验>卡方检验>似然比检验>Wald检验>基于置信区间检验.

　　3.2模拟检验方法犯第一类错误的比例

　　通过犯第一类错误的比例对7种检验方法进行比较分析.这里只考虑n=50，λ=3的情况，ω的取值和随机数产生的方法同上.对每组参数，实验均重复3 000次.实验结果见表2，其中P表示同一组参数对应的3 000组数据中存在零膨胀的比例.模拟结果见表2.

　　表2中的倾斜加粗表示犯第一类错误的最小值，倾斜加下划线表示第二小的值.从表2模拟结果可以看出，当n=50，λ=3时，在不同零膨胀程度下，卡方检验犯第一类错误的比例总是最小，而R和C检验犯第一类错误的比例大于卡方检验小于其他四种检验.此外，从表2模拟结果同样可知，在给定的n=50，λ=3的条件下，随着零膨胀程度的增加，7�N检验方法犯第一类错误的比例均有减少的趋势.

　　4结论

　　本文在以检验功效和犯第一类错误比例为评判准则下，通过Monte Carlo模拟分析方法，对已存在的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验作了比较研究.得出7种零膨胀检验方法可以有效的检验零膨胀是否存在；其中，基于置信检验的功效最低，主要原因在于该方法对零假设有非常强的保护；虽然R检验和C检验的功效比其他5种检验的功效大，即“纳伪”的概率比其他五种检验小，但是这两种检验方法因不考虑协变量，有时候会导致信息的丢失.卡方检验犯第一类错误的比例比其他检验的低，即“弃真”的概率低，但是，卡方检验是基于均值与方差相等的Poisson模型，所以卡方检验有时会导致纳入过多的错误信息，如可能考虑了过度离散情况.似然比检验、Score检验和Wald检验是基于ZIP模型，所以更能反映真实情况，而Score检验的统计量是最简洁的.在应用过程中，零膨胀作为一种现象只是相对而言，因此针对具体问题，应该仔细观察和考虑可能同时存在的其他特殊情况，以选择合适的模型进行拟合.

　　参考文献

　　[1]王存同. 零膨胀模型在社会科学实证研究中的应用――以中国人工流产影响因素的分析为例[J]. 社会学研究， 2010（5）：130-148.

　　[2]谢锋昌.零过多数据的统计分析及其应用[M].北京：科学出版社， 2013.

　　[3]Cochran W G.Some metools for stengthening the canman X2 test[J].Biometrics，1954，10（4）：417-451.

　　[4]Rao C R，Chakravarti I M. Some small sample tests of significance for a poisson distribution[J]. Biometrics， 1956， 12（3）： 264-282.

　　[5]ElShaarawi A H. Some goodnessoffit methods for the poisson plus added zeros distribution[J]. Applied and Environmental Microbiology， 1985， 49（5）：1304-1306.

　　[6]Van d B J. A score test for zero inflation in a poisson destruction[J]. Biometrics， 1995， 51（2）：738-743.

　　[7]Xie M，He B，Goh T N. Zeroinflated Poisson model in statically process control[J]. Computational Statistics & Data Analysis， 2001， 38（2）：191-201.

　　[8]Numna S，Jansakul N. Analysis of extra zero counts using zeroinflated Poisson models [D].Prince：Prince Mathematics and Statistics Prince of Songkla University， 2009.

　　[9]王星. 非参数统计[M]. 北京：清华大学出版社， 2009.