基于ZIP模型的零膨胀检验方法的比较研究

  摘要针对已存在关于零膨胀的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验,通过Monte Carlo模拟分析方法,在功效和犯第一类错误比例的意义下,在不同零膨胀程度、不同均值和不同样本量下对上述检验作比较研究.得到了不同条件下7种检验方法的优良性,并结合理论对7种检验方法进行分析.

  关键词零膨胀;模拟;检验功效;第一类错误

  中图分类号O212.1文献标识码A

  1引言

  计数数据是一种广泛存在于医学、保险和农林等领域的数据类型.当计数数据中零的比例超出泊松(Poisson)或负二项(NB)分布等一般计数模型的预测能力,这类现象被称为计数资料的零膨胀[1].针对存在零膨胀现象的计数数据,常见的统计分析模型有零膨胀泊松模型、零膨胀负二项回归模型等.而在用零膨胀模型对数据进行拟合分析时,首先要对数据是否存在零膨胀进行检验.关于数据是否存在零膨胀,一方面可以通过直方图等做简单的直观分析与判断,但所得结论较为粗糙[2];另一方面可以通过建立检验统计量进行假设检验,得到较为精确的结论.1954年Cohran[3]提出了一个不考虑协变量的C检验,1956年Rao和Chakravarti[4]针对小样本量提出另一个考虑协变量的R检验,这两种检验方法只考虑响应变量的观测值,相对较为直接.1985年ElShaarawi[5]推导了基于ZIP模型下似然比检验的统计量,并通过模拟分析比较了R检验、C检验和似然比检验的功效.1995年Van den broek[6]提出了基于零膨胀泊松(ZIP)模型下的Score检验;2001年M.Xie[7]提出了基于ZIP模型的基于置信区间检验,并通过模拟方法对C检验、R检验、似然比检验、Score检验、基于置信区间的检验和卡方检验的功效进行比较;2009年Saranya Numna[8]提出了基于ZIP模型下的Wald检验.

  本文在基于ZIP模型条件,通过Monte Carlo模拟分析方法,在功效和犯第一类错误比例的意义下,对上述的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验在不同零膨胀程度、不同均值和不同样本量下作比较研究.

  2零膨胀模型及零膨胀检验方法介绍

  2.1零膨胀泊松(ZIP)模型

  零膨胀(ZI)模型的基本思想是认为事件的发生数来自于两部分:一部分随机变量的取值只为零(这部分零称为结构零),另一部分来自一个离散分布(此时的零称为抽样零),由此可得零膨胀模型的一般形式是:

  再对图1的模拟结果进行分析.首先考虑λ变化、n不变条件下观察不同零膨胀的功效.从图1模拟结果看出,随着λ的增大,Wald检验和基于置信区间的检验与其他5种检验的功效差距逐渐增大.

  然后考虑n变化、λ不变条件下观察不同零膨胀的功效.从图1可以看出,当n比较小(如n=20,50)时,R检验和C检验的功效高于其他检验的功效.当n比较大,ω比较小(如n=100,200,ω0.05)时,7种检验方法的功效差别不明显.

  综合模拟结果可知,大多数情况,R检验法和C检验法对零膨胀检验的功效高于其他5种检验,其它检验的功效大小依次为:Score检验>卡方检验>似然比检验>Wald检验>基于置信区间检验.

  3.2模拟检验方法犯第一类错误的比例

  通过犯第一类错误的比例对7种检验方法进行比较分析.这里只考虑n=50,λ=3的情况,ω的取值和随机数产生的方法同上.对每组参数,实验均重复3 000次.实验结果见表2,其中P表示同一组参数对应的3 000组数据中存在零膨胀的比例.模拟结果见表2.

  表2中的倾斜加粗表示犯第一类错误的最小值,倾斜加下划线表示第二小的值.从表2模拟结果可以看出,当n=50,λ=3时,在不同零膨胀程度下,卡方检验犯第一类错误的比例总是最小,而R和C检验犯第一类错误的比例大于卡方检验小于其他四种检验.此外,从表2模拟结果同样可知,在给定的n=50,λ=3的条件下,随着零膨胀程度的增加,7�N检验方法犯第一类错误的比例均有减少的趋势.

  4结论

  本文在以检验功效和犯第一类错误比例为评判准则下,通过Monte Carlo模拟分析方法,对已存在的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验作了比较研究.得出7种零膨胀检验方法可以有效的检验零膨胀是否存在;其中,基于置信检验的功效最低,主要原因在于该方法对零假设有非常强的保护;虽然R检验和C检验的功效比其他5种检验的功效大,即“纳伪”的概率比其他五种检验小,但是这两种检验方法因不考虑协变量,有时候会导致信息的丢失.卡方检验犯第一类错误的比例比其他检验的低,即“弃真”的概率低,但是,卡方检验是基于均值与方差相等的Poisson模型,所以卡方检验有时会导致纳入过多的错误信息,如可能考虑了过度离散情况.似然比检验、Score检验和Wald检验是基于ZIP模型,所以更能反映真实情况,而Score检验的统计量是最简洁的.在应用过程中,零膨胀作为一种现象只是相对而言,因此针对具体问题,应该仔细观察和考虑可能同时存在的其他特殊情况,以选择合适的模型进行拟合.

  参考文献

  [1]王存同. 零膨胀模型在社会科学实证研究中的应用――以中国人工流产影响因素的分析为例[J]. 社会学研究, 2010(5):130-148.

  [2]谢锋昌.零过多数据的统计分析及其应用[M].北京:科学出版社, 2013.

  [3]Cochran W G.Some metools for stengthening the canman X2 test[J].Biometrics,1954,10(4):417-451.

  [4]Rao C R,Chakravarti I M. Some small sample tests of significance for a poisson distribution[J]. Biometrics, 1956, 12(3): 264-282.

  [5]ElShaarawi A H. Some goodnessoffit methods for the poisson plus added zeros distribution[J]. Applied and Environmental Microbiology, 1985, 49(5):1304-1306.

  [6]Van d B J. A score test for zero inflation in a poisson destruction[J]. Biometrics, 1995, 51(2):738-743.

  [7]Xie M,He B,Goh T N. Zeroinflated Poisson model in statically process control[J]. Computational Statistics & Data Analysis, 2001, 38(2):191-201.

  [8]Numna S,Jansakul N. Analysis of extra zero counts using zeroinflated Poisson models [D].Prince:Prince Mathematics and Statistics Prince of Songkla University, 2009.

  [9]王星. 非参数统计[M]. 北京:清华大学出版社, 2009.

  摘要针对已存在关于零膨胀的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验,通过Monte Carlo模拟分析方法,在功效和犯第一类错误比例的意义下,在不同零膨胀程度、不同均值和不同样本量下对上述检验作比较研究.得到了不同条件下7种检验方法的优良性,并结合理论对7种检验方法进行分析.

  关键词零膨胀;模拟;检验功效;第一类错误

  中图分类号O212.1文献标识码A

  1引言

  计数数据是一种广泛存在于医学、保险和农林等领域的数据类型.当计数数据中零的比例超出泊松(Poisson)或负二项(NB)分布等一般计数模型的预测能力,这类现象被称为计数资料的零膨胀[1].针对存在零膨胀现象的计数数据,常见的统计分析模型有零膨胀泊松模型、零膨胀负二项回归模型等.而在用零膨胀模型对数据进行拟合分析时,首先要对数据是否存在零膨胀进行检验.关于数据是否存在零膨胀,一方面可以通过直方图等做简单的直观分析与判断,但所得结论较为粗糙[2];另一方面可以通过建立检验统计量进行假设检验,得到较为精确的结论.1954年Cohran[3]提出了一个不考虑协变量的C检验,1956年Rao和Chakravarti[4]针对小样本量提出另一个考虑协变量的R检验,这两种检验方法只考虑响应变量的观测值,相对较为直接.1985年ElShaarawi[5]推导了基于ZIP模型下似然比检验的统计量,并通过模拟分析比较了R检验、C检验和似然比检验的功效.1995年Van den broek[6]提出了基于零膨胀泊松(ZIP)模型下的Score检验;2001年M.Xie[7]提出了基于ZIP模型的基于置信区间检验,并通过模拟方法对C检验、R检验、似然比检验、Score检验、基于置信区间的检验和卡方检验的功效进行比较;2009年Saranya Numna[8]提出了基于ZIP模型下的Wald检验.

  本文在基于ZIP模型条件,通过Monte Carlo模拟分析方法,在功效和犯第一类错误比例的意义下,对上述的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验在不同零膨胀程度、不同均值和不同样本量下作比较研究.

  2零膨胀模型及零膨胀检验方法介绍

  2.1零膨胀泊松(ZIP)模型

  零膨胀(ZI)模型的基本思想是认为事件的发生数来自于两部分:一部分随机变量的取值只为零(这部分零称为结构零),另一部分来自一个离散分布(此时的零称为抽样零),由此可得零膨胀模型的一般形式是:

  再对图1的模拟结果进行分析.首先考虑λ变化、n不变条件下观察不同零膨胀的功效.从图1模拟结果看出,随着λ的增大,Wald检验和基于置信区间的检验与其他5种检验的功效差距逐渐增大.

  然后考虑n变化、λ不变条件下观察不同零膨胀的功效.从图1可以看出,当n比较小(如n=20,50)时,R检验和C检验的功效高于其他检验的功效.当n比较大,ω比较小(如n=100,200,ω0.05)时,7种检验方法的功效差别不明显.

  综合模拟结果可知,大多数情况,R检验法和C检验法对零膨胀检验的功效高于其他5种检验,其它检验的功效大小依次为:Score检验>卡方检验>似然比检验>Wald检验>基于置信区间检验.

  3.2模拟检验方法犯第一类错误的比例

  通过犯第一类错误的比例对7种检验方法进行比较分析.这里只考虑n=50,λ=3的情况,ω的取值和随机数产生的方法同上.对每组参数,实验均重复3 000次.实验结果见表2,其中P表示同一组参数对应的3 000组数据中存在零膨胀的比例.模拟结果见表2.

  表2中的倾斜加粗表示犯第一类错误的最小值,倾斜加下划线表示第二小的值.从表2模拟结果可以看出,当n=50,λ=3时,在不同零膨胀程度下,卡方检验犯第一类错误的比例总是最小,而R和C检验犯第一类错误的比例大于卡方检验小于其他四种检验.此外,从表2模拟结果同样可知,在给定的n=50,λ=3的条件下,随着零膨胀程度的增加,7�N检验方法犯第一类错误的比例均有减少的趋势.

  4结论

  本文在以检验功效和犯第一类错误比例为评判准则下,通过Monte Carlo模拟分析方法,对已存在的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验作了比较研究.得出7种零膨胀检验方法可以有效的检验零膨胀是否存在;其中,基于置信检验的功效最低,主要原因在于该方法对零假设有非常强的保护;虽然R检验和C检验的功效比其他5种检验的功效大,即“纳伪”的概率比其他五种检验小,但是这两种检验方法因不考虑协变量,有时候会导致信息的丢失.卡方检验犯第一类错误的比例比其他检验的低,即“弃真”的概率低,但是,卡方检验是基于均值与方差相等的Poisson模型,所以卡方检验有时会导致纳入过多的错误信息,如可能考虑了过度离散情况.似然比检验、Score检验和Wald检验是基于ZIP模型,所以更能反映真实情况,而Score检验的统计量是最简洁的.在应用过程中,零膨胀作为一种现象只是相对而言,因此针对具体问题,应该仔细观察和考虑可能同时存在的其他特殊情况,以选择合适的模型进行拟合.

  参考文献

  [1]王存同. 零膨胀模型在社会科学实证研究中的应用――以中国人工流产影响因素的分析为例[J]. 社会学研究, 2010(5):130-148.

  [2]谢锋昌.零过多数据的统计分析及其应用[M].北京:科学出版社, 2013.

  [3]Cochran W G.Some metools for stengthening the canman X2 test[J].Biometrics,1954,10(4):417-451.

  [4]Rao C R,Chakravarti I M. Some small sample tests of significance for a poisson distribution[J]. Biometrics, 1956, 12(3): 264-282.

  [5]ElShaarawi A H. Some goodnessoffit methods for the poisson plus added zeros distribution[J]. Applied and Environmental Microbiology, 1985, 49(5):1304-1306.

  [6]Van d B J. A score test for zero inflation in a poisson destruction[J]. Biometrics, 1995, 51(2):738-743.

  [7]Xie M,He B,Goh T N. Zeroinflated Poisson model in statically process control[J]. Computational Statistics & Data Analysis, 2001, 38(2):191-201.

  [8]Numna S,Jansakul N. Analysis of extra zero counts using zeroinflated Poisson models [D].Prince:Prince Mathematics and Statistics Prince of Songkla University, 2009.

  [9]王星. 非参数统计[M]. 北京:清华大学出版社, 2009.


相关文章

  • 中国通货膨胀的动态特征研究
  • 作者:何启志范从来 经济研究 2011年11期 一.引言 保持物价稳定是各国中央银行的最主要目标之一,通货膨胀问题一直都是各国货币政策所关注的核心问题,从通胀惯性.学习型预期.波动性特征以及机制转化等角度研究通货膨胀动态变化特征对合理确定通 ...查看


  • 规模经济.卡甘效应与微观货币需求
  • 作者:彭方平连玉君胡新明赵慧敏 经济研究 2013年08期 一.引言 自从上世纪90年代以来,我国的M2与GDP之比值一路走高,近年来该比值更是超过日本,成为全球M2与GDP比值最高的国家之一.学术界通常用货币-产出比衡量发展中国家金融深化 ...查看


  • 智能交通疏缓拥堵专题资料集锦(二)
  • 智能交通 疏缓拥堵专题 资料集锦(二) 更新时间:2015-2-5 以下是小编整理的一些智能交通 疏缓拥堵专题资料,其中包括了有关 智能交通的学术研究文献及其文献简介.有关文档的下载,可以到研发 埠网站的专题模块,输入相应的专题名,搜索到相 ...查看


  • 分析并解释中国的Phillips曲线
  • 分析并解释中国的Phillips 曲线 摘要:文章检验了我国经济中的基于产出缺口的菲利普斯曲线的存在性.本文将实际产出分解成不可观测趋势成分和周期成分,设定它们服从一个单间的向量自回归过程,再运用卡尔曼滤波技术估计我国1978-2013年的 ...查看


  • 我国货币政策对股市的影响
  • 我国货币政策对股票价格的影响 --基于Markov区制转换VAR模型的实证研究 倪玉娟  刘林 (厦门大学金融系, 福建 厦门 361005) 摘要:本文首先通过经济理论分析然后利用1996年1月到2010年4月的数据,运用MSIH(2) ...查看


  • 各类软件及其用途文档
  • 三维分子类 RASMOL 2.7.2.1 观看生物分子3D 微观立体结构的软件.非常有名,巨棒! RasTop 2.0 为RasMol 2.7.1的图形用户界面软件 CHIME 2.6 SP3 直接在浏览器中观看3D 分子. MolMol ...查看


  • 我国输入型通货膨胀传导机制的实证分析_束丹_袁成
  • 我国输入型通货膨胀传导机制的实证分析 束丹 袁成 摘要:在经济愈加开放的背景下,由国际贸易和国际资本投资引发的输入型通货膨胀在我国物价波动中所产生的影响不容忽视.本文通过梳理输入型通货膨胀的传导机制,分解出四个主要影响因子,建立了输入型通货 ...查看


  • 基于宏观压力测试方法的商业银行体系信用风险评估
  • 基于宏观压力测试方法的商业银行体系信用风险评估・117・ 基于宏观压力测试方法的商业银行 体系信用风险评估 华晓() [摘要],使用Logit模 Y,以指标Y作为因变量与宏观经济因素进行多,通过假设情境法进行宏观压力测试,定量分析宏观经济因 ...查看


  • 超额货币供给下的潜在通货膨胀压力
  • <财经科学:}2013/7总304期 当前我国超额货币供给下的潜在通货膨胀压力※ 肖威1吴军2 [内容摘要]长期的超额货币供给积累了高额货币存量,导致了对中国潜在通货膨胀压 力的普遍担忧.在有效需求不足的宏观背景下,过快增长的货币供给 ...查看


热门内容