2010. 8
见 解
VIEW POINT
自
1895年挪威统计局长凯尔提出
“代表性调查”的抽样方法以
来,样本代表性一直是一个有争议的概念。一方面,人们总希望在抽样中尽量提高样本代表性,认为这是顺理成章之事,但另一方面,对于如何提高样本代表性、如何衡量样本代表性却又存在着分歧。究其原因,我认为就在于对什么是样本代表性存在不同的理解。《中国统计》2010年第4期发表了汪津津老师的“揭开‘样本代表性’的神秘面纱”一文(以下简称汪文),对什么是样本代表性进行了一些探讨,读后确实有一定的启发,但我觉得其中仍有一些理解上的偏差,有必要提出商榷和讨论。
正确理解样本代表性
文/李金昌
例如,假设某总体均值为100,对其抽样有两种设计方案,A设计的样本均值分布方差为16,B设计的样本均值分布方差为36,我们就说A抽样设计的样本代表性高于B方案。因为在某一概率保证程度下,例如95.45%,我们可以计算A设计的样本估计值与总体实际值之间的极限距离是8,而B设计的样本估计值与总体实际值之间的极限距离是12。换句话说,A设计有95.45%的样本所给出的估计值在92-108的范围内,而B设计的估计值在92-108范围内的样本只有不到82%。
然而,这里特别需要强调的是,对于确定的总体和既定的抽样设计,抽样分布方差的理论值是惟一确定的,它不会因具体样本的不同而变化。也就是说,样本代表性随抽样分布方差而惟一确定,不以具体样本不同而有别。或许在一个很优的抽样设计下,我们抽到了一个估计值远离总体实际值的样本(例如A设计也可能抽到了一个估计值为86的样本);又或许在一个不太优的抽样设计下,我们抽到了一个估计值十分接近总体实际值的样本(例如B设计抽到了一个估计值正好等于100的样本),但这些都不足以说明样本代表性的高与低。如果真的出现上述情况,我们只能说碰巧抽到了一个“差”的样本或“好”的样本。总之,样本代表性是就全部可能的样本而言的,是以概率来衡量的。
所以,汪文中“在很多时候,即使使用同一种抽样方法,不同的样本在代表性上也会有很大的差异”的提法,是不够妥切的。
历史。样本代表性源自于凯尔提出的“代表性调查”的概念。他将代表性调查定义为“根据抽样设计,从总体的正常‘代表’中合理地收集数据”,认为“调查结果的准确性,不是取决于观察数量的多少,而是取决于正确的代表性方法”,主张“按照一个以过去统计调查为基础的合理方法来选取样本单位”,也就是按照调查者的主观判断来取样,这就是我们所说的有目的抽样。由于凯尔没有提出完善的推断理论和解决如何检验“代表性”的问题,因此他的观点引起了激烈的争论。1903年,第九届国际统计学会会议在柏林召开,代表性方法的分委员会达成了如下结论:“考察了代表性方法在一系列案例中正确使用后,能提供真实的和详细的观察结果,并能在此基础上将结论推广,委员会推荐它在适当的约束下使用,假定观察单位的选择的条件是完全确定的,结论可以发表。这一问题仍留在会议议程上,使下一届会上可以提出一个报告谈谈这个方法的实际应用和这些结论的价值何在。”随着代表性方法逐步被接受,争论的焦点开始集中在了如何保证样本的代表性上,产生了随机抽样与有目的抽样的讨论。1906年,英国统计学家鲍莱(A.L.Bowley)强调了把概率抽样应用到统计调查的必要性,并指出:“用概率抽样方法能得到我们满意的结果,并且通常只要很小的样本就够了。惟一的难点就是保证被考察的对象(每个人或事)都有同等的机会被抽中。”1924年,国际统计学会成立“抽样方法应用研究委员会”。1925年,在罗马举行的第十六届国际统计学会会议上,抽样方法应用研究委员会发布了鲍莱的《抽样精确度的测定》和丹麦统计学家詹森(A.Jensen)的《代表性方法的实践》两
样本代表性是就抽样分布而言的
顾名思义,样本代表性指的是样本对总体的代表程度,或者说样本结构与总体结构的相近程度。从抽样估计的角度看,就是样本估计值与总体实际值之间的接近程度。但要注意的是,样本代表性是一个整体性的概念,它不是就某一个具体样本而言、而是就抽样分布而言的。或者说,样本代表性指的是所有可能样本的平均代表程度。
我们知道,在进行科学的概率抽样设计下,对于来自于同一总体的所有可能的样本统计值(例如样本均值),可以被编制成一个分布数列,称之为样本统计量的概率分布,简称抽样分布。反映抽样分布特征的指标主要有两个,一是分布的期望,二是分布的方差(也称为估计量方差,其平方根就是抽样标准误差)。在分布期望既定的情况下,分布方差的大小就成为了衡量抽样设计效果的核心指标,即分布方差越大,抽样设计效果越差,分布方差越小,抽样设计效果越好。这里的抽样设计效果好与差,实际上就是样本代表性高与低的一种度量。因为,抽样分布方差越小,说明在相同的概率保证下,样本估计值与总体实际值之间的距离平均来讲就越小,或者说获取一个更接近总体实际值的样本估计值的概率就越大;反之,抽样分布方差越大,说明在相同的概率保证下,样本估计值与总体实际值之间的距离平均来讲就越大,或者说获取一个更接近总体实际值的样本估计值的概率就越小。
样本代表性以随机抽样为基础
为了更好地理解样本代表性,我们需要回顾一下关于“样本代表性”的
40
CHINA STATISTICS
VIEW POINT
个报告,第一次对随机抽样和有目的抽样进行了比较研究,提出了随机抽样要按照概率原理给每个单位都有被抽中机会的观点,从理论和实践上充分肯定了随机抽样方法的科学性。
由此可见,抽样的方法就是由“代表性调查”的思想引发而来的,获取有代表的样本一开始就是人们的期望。然而,正是围绕如何确保样本的代表性问题,催生了较为完善的抽样理论与方法。100多年来,无论是理论研究还是实践经验都充分证明只有随机抽样才能构筑样本代表性的基础,汪文中所举的“耶鲁大学毕业生平均年收入调查数据偏高”和“美国《文学文摘》1936年对总统选举预测失败”的例子,就是因为这两次抽样都是非随机抽样,其共同特征就是没有掌握完整的抽样框资料,没有赋予每一个个体应有的被抽中的机会。简单地说,就是样本仅限于总体中的一部分个体。更为严重的是,这种非随机抽样根本就没有什么“样本规律”,根本就无法测度误差大小,因关于这一点,汪文也做了充分的阐述。
但要注意的是,样本代表性的这种随机性基础,并不等于如汪文所说的“纯随机抽样是惟一一种能有足够把握利用统计理论进行分析的抽样方法,其代表性最强”,而事实上汪文后面提到的分层抽样、整群抽样、系统抽样、多阶段抽样等抽样方式都能很好地满足随机性的要求。只要准确、完整地掌握实现相应抽样组织方式的资料,并严格遵循各自抽样方式的要求,那么各种建立在随机性基础上的抽样方式都能既提高样本的代表性,又能同样进行抽样分析,无非成本可能要增加一些,这需要在成本与抽样效果两者之间进行权衡。例如分层抽样,只要能准确地分层,那么层内进行随机抽样也就比较简单了,通过总方差分解而得到的抽样分布,比起纯随机抽样就具有更小的方差,从而提高了样本的代表性。在实践中,我们之所以大量采用分层抽样方式,提高样本代表性就是其中的主要目的之一。
还需要指出的是,汪文中“如果我们抽取的样本是人,随机样本的代表
性还必须依赖于另一个假定,即被调查者说的都是实话”这一表述,也是不正确的。因为样本代表性是就个体特征本身而不是就个体特征测度而言的,它与被调查者(调查对象是人的时候)是否如实回答无关。无论是人还是物,都有可能得不到真实的关于调查个体特征的数据,都可能产生系统性偏差,但这属于计量误差问题,是另一个范畴概念了。例如,文中提到的耶鲁大学毕业生收入调查,能否掌握全部毕业生名单、能否保证每个毕业生都有被抽中的机会,属于样本代表性问题,而抽中的毕业生是否如实回答则属于计量误差问题,不属于样本代表性问题。
方案(例如补充调查、调查中剔除等),以获取一个尽量“好”的样本。事实上,大量的抽样调查都是这样处理的。二是辅助信息不准确,包括用以排序、分层的信息,或者用以判断群内群间方差大小的信息,或者判断抽样单位大小的信息等不准确,从而导致系统抽样设计中排序有差错、分层抽样中个体归层错位、整群抽样中群大小划分不科学、多阶段抽样中各阶段抽样比不合理、不等概抽样中抽样概率计算有误等问题,使实际的抽样分布偏离真实的抽样分布,使实际的样本代表性偏离真实的样本代表性。这种情况在现实中也是普遍存在的,我们除了事先认真审核外,也只能在抽样过程中根据实际情况加以掌控,以尽量获取一个“好”的样本。三是遇到无回答,包括找不到被调查单位、被调查者拒绝回答和个体特征数据难以取得等情况。这类情况在抽样实践中也是经常出现的,并且具体原因十分复杂,很难事先进行预防。对于这类情况,如果在样本中直接剔除无回答单位,那就等于缩小了样本容量,样本容量缩小自然就会降低样本的代表性;如果采取替代方法,那么如何替代就是一个问题,替代比例和替代方法都会在一定程度上影响样本的代表性。我们所能做的,除了尽量想办法提高回答率外,就是采取最接近随机性的替代方法来补充样本单位,以获取一个尽量“好”的样本。可见,在抽样实践中,样本代表性是具有相对性的。
在这里还需要强调指出的是,我们有时只能获取没有随机性基础的样本(例如对某类特殊人群的调查),或者只能得到样本容量不足的样本(例如对稀有病例的调查)。我们认为,对于这种情况也不能死扣样本的代表性,因为从信息的角度看,任何样本都包含有价值的信息,都或多或少可以作为推断的依据。通常的做法是,我们可以通过辅助信息的选择和利用、通过构造适当的估计量来弥补样本代表性的不足。实践证明,只要辅助信息较完备,估计量偏差控制在合理的范围内,依据代表性不足的样本同样可以给出效果较好的估计。理解这一点很重要。
(作者单位:浙江工商大学)
样本代表性在实践中具有相对性
尽管从理论上说,样本代表性是抽样设计的核心内容之一,但因为在抽样实践中会遇到这样或那样的问题而变得具有相对性,需要根据实际情况灵活加以处理。也就是说,在一定的抽样设计下,如何根据实际情况获取一个尽量重点加以关注的。
前面已经指出,样本代表性是一个整体性的概念,但具体的样本却有“好”与“差”的区别,而什么是好、什么是差,显然具有相对性。我们所要做的就是在样本代表性的一般意义上获取一个满足事后“代表性检查”的样本,这是实际抽样的关键所在。然而要做到这一点并不容易,因为在实际抽样中我们可能面临如下困难:一是抽样框不完善,具体包括丢失个体、过涵盖(包含非同质个体)和复合联接(抽样代码与个体之间存在非一一对应关系)等问题,其直接结果是造成抽样的随机性基础受到破坏,或使一些个体被排除在调查范围之外,或使样本包含了非同质的个体,或使一些个体被抽中的概率增加或减少,从而难以保证样本代表性的客观基础。对于这种情况,我们必须事先加以预防,积极检查核对补充。但对于一些大型的调查,真正完备的抽样框几乎是不存在的,或多或少有一些缺陷,但我们不能因此就放弃抽样调查,而是要在抽样设计时就考虑到可能存在的问题并提出应对或补救的
而当然也就谈不上什么样本代表性了。“好”的样本,才是抽样实践中需要
41
2
010. 8
见 解
2010. 8
见 解
VIEW POINT
自
1895年挪威统计局长凯尔提出
“代表性调查”的抽样方法以
来,样本代表性一直是一个有争议的概念。一方面,人们总希望在抽样中尽量提高样本代表性,认为这是顺理成章之事,但另一方面,对于如何提高样本代表性、如何衡量样本代表性却又存在着分歧。究其原因,我认为就在于对什么是样本代表性存在不同的理解。《中国统计》2010年第4期发表了汪津津老师的“揭开‘样本代表性’的神秘面纱”一文(以下简称汪文),对什么是样本代表性进行了一些探讨,读后确实有一定的启发,但我觉得其中仍有一些理解上的偏差,有必要提出商榷和讨论。
正确理解样本代表性
文/李金昌
例如,假设某总体均值为100,对其抽样有两种设计方案,A设计的样本均值分布方差为16,B设计的样本均值分布方差为36,我们就说A抽样设计的样本代表性高于B方案。因为在某一概率保证程度下,例如95.45%,我们可以计算A设计的样本估计值与总体实际值之间的极限距离是8,而B设计的样本估计值与总体实际值之间的极限距离是12。换句话说,A设计有95.45%的样本所给出的估计值在92-108的范围内,而B设计的估计值在92-108范围内的样本只有不到82%。
然而,这里特别需要强调的是,对于确定的总体和既定的抽样设计,抽样分布方差的理论值是惟一确定的,它不会因具体样本的不同而变化。也就是说,样本代表性随抽样分布方差而惟一确定,不以具体样本不同而有别。或许在一个很优的抽样设计下,我们抽到了一个估计值远离总体实际值的样本(例如A设计也可能抽到了一个估计值为86的样本);又或许在一个不太优的抽样设计下,我们抽到了一个估计值十分接近总体实际值的样本(例如B设计抽到了一个估计值正好等于100的样本),但这些都不足以说明样本代表性的高与低。如果真的出现上述情况,我们只能说碰巧抽到了一个“差”的样本或“好”的样本。总之,样本代表性是就全部可能的样本而言的,是以概率来衡量的。
所以,汪文中“在很多时候,即使使用同一种抽样方法,不同的样本在代表性上也会有很大的差异”的提法,是不够妥切的。
历史。样本代表性源自于凯尔提出的“代表性调查”的概念。他将代表性调查定义为“根据抽样设计,从总体的正常‘代表’中合理地收集数据”,认为“调查结果的准确性,不是取决于观察数量的多少,而是取决于正确的代表性方法”,主张“按照一个以过去统计调查为基础的合理方法来选取样本单位”,也就是按照调查者的主观判断来取样,这就是我们所说的有目的抽样。由于凯尔没有提出完善的推断理论和解决如何检验“代表性”的问题,因此他的观点引起了激烈的争论。1903年,第九届国际统计学会会议在柏林召开,代表性方法的分委员会达成了如下结论:“考察了代表性方法在一系列案例中正确使用后,能提供真实的和详细的观察结果,并能在此基础上将结论推广,委员会推荐它在适当的约束下使用,假定观察单位的选择的条件是完全确定的,结论可以发表。这一问题仍留在会议议程上,使下一届会上可以提出一个报告谈谈这个方法的实际应用和这些结论的价值何在。”随着代表性方法逐步被接受,争论的焦点开始集中在了如何保证样本的代表性上,产生了随机抽样与有目的抽样的讨论。1906年,英国统计学家鲍莱(A.L.Bowley)强调了把概率抽样应用到统计调查的必要性,并指出:“用概率抽样方法能得到我们满意的结果,并且通常只要很小的样本就够了。惟一的难点就是保证被考察的对象(每个人或事)都有同等的机会被抽中。”1924年,国际统计学会成立“抽样方法应用研究委员会”。1925年,在罗马举行的第十六届国际统计学会会议上,抽样方法应用研究委员会发布了鲍莱的《抽样精确度的测定》和丹麦统计学家詹森(A.Jensen)的《代表性方法的实践》两
样本代表性是就抽样分布而言的
顾名思义,样本代表性指的是样本对总体的代表程度,或者说样本结构与总体结构的相近程度。从抽样估计的角度看,就是样本估计值与总体实际值之间的接近程度。但要注意的是,样本代表性是一个整体性的概念,它不是就某一个具体样本而言、而是就抽样分布而言的。或者说,样本代表性指的是所有可能样本的平均代表程度。
我们知道,在进行科学的概率抽样设计下,对于来自于同一总体的所有可能的样本统计值(例如样本均值),可以被编制成一个分布数列,称之为样本统计量的概率分布,简称抽样分布。反映抽样分布特征的指标主要有两个,一是分布的期望,二是分布的方差(也称为估计量方差,其平方根就是抽样标准误差)。在分布期望既定的情况下,分布方差的大小就成为了衡量抽样设计效果的核心指标,即分布方差越大,抽样设计效果越差,分布方差越小,抽样设计效果越好。这里的抽样设计效果好与差,实际上就是样本代表性高与低的一种度量。因为,抽样分布方差越小,说明在相同的概率保证下,样本估计值与总体实际值之间的距离平均来讲就越小,或者说获取一个更接近总体实际值的样本估计值的概率就越大;反之,抽样分布方差越大,说明在相同的概率保证下,样本估计值与总体实际值之间的距离平均来讲就越大,或者说获取一个更接近总体实际值的样本估计值的概率就越小。
样本代表性以随机抽样为基础
为了更好地理解样本代表性,我们需要回顾一下关于“样本代表性”的
40
CHINA STATISTICS
VIEW POINT
个报告,第一次对随机抽样和有目的抽样进行了比较研究,提出了随机抽样要按照概率原理给每个单位都有被抽中机会的观点,从理论和实践上充分肯定了随机抽样方法的科学性。
由此可见,抽样的方法就是由“代表性调查”的思想引发而来的,获取有代表的样本一开始就是人们的期望。然而,正是围绕如何确保样本的代表性问题,催生了较为完善的抽样理论与方法。100多年来,无论是理论研究还是实践经验都充分证明只有随机抽样才能构筑样本代表性的基础,汪文中所举的“耶鲁大学毕业生平均年收入调查数据偏高”和“美国《文学文摘》1936年对总统选举预测失败”的例子,就是因为这两次抽样都是非随机抽样,其共同特征就是没有掌握完整的抽样框资料,没有赋予每一个个体应有的被抽中的机会。简单地说,就是样本仅限于总体中的一部分个体。更为严重的是,这种非随机抽样根本就没有什么“样本规律”,根本就无法测度误差大小,因关于这一点,汪文也做了充分的阐述。
但要注意的是,样本代表性的这种随机性基础,并不等于如汪文所说的“纯随机抽样是惟一一种能有足够把握利用统计理论进行分析的抽样方法,其代表性最强”,而事实上汪文后面提到的分层抽样、整群抽样、系统抽样、多阶段抽样等抽样方式都能很好地满足随机性的要求。只要准确、完整地掌握实现相应抽样组织方式的资料,并严格遵循各自抽样方式的要求,那么各种建立在随机性基础上的抽样方式都能既提高样本的代表性,又能同样进行抽样分析,无非成本可能要增加一些,这需要在成本与抽样效果两者之间进行权衡。例如分层抽样,只要能准确地分层,那么层内进行随机抽样也就比较简单了,通过总方差分解而得到的抽样分布,比起纯随机抽样就具有更小的方差,从而提高了样本的代表性。在实践中,我们之所以大量采用分层抽样方式,提高样本代表性就是其中的主要目的之一。
还需要指出的是,汪文中“如果我们抽取的样本是人,随机样本的代表
性还必须依赖于另一个假定,即被调查者说的都是实话”这一表述,也是不正确的。因为样本代表性是就个体特征本身而不是就个体特征测度而言的,它与被调查者(调查对象是人的时候)是否如实回答无关。无论是人还是物,都有可能得不到真实的关于调查个体特征的数据,都可能产生系统性偏差,但这属于计量误差问题,是另一个范畴概念了。例如,文中提到的耶鲁大学毕业生收入调查,能否掌握全部毕业生名单、能否保证每个毕业生都有被抽中的机会,属于样本代表性问题,而抽中的毕业生是否如实回答则属于计量误差问题,不属于样本代表性问题。
方案(例如补充调查、调查中剔除等),以获取一个尽量“好”的样本。事实上,大量的抽样调查都是这样处理的。二是辅助信息不准确,包括用以排序、分层的信息,或者用以判断群内群间方差大小的信息,或者判断抽样单位大小的信息等不准确,从而导致系统抽样设计中排序有差错、分层抽样中个体归层错位、整群抽样中群大小划分不科学、多阶段抽样中各阶段抽样比不合理、不等概抽样中抽样概率计算有误等问题,使实际的抽样分布偏离真实的抽样分布,使实际的样本代表性偏离真实的样本代表性。这种情况在现实中也是普遍存在的,我们除了事先认真审核外,也只能在抽样过程中根据实际情况加以掌控,以尽量获取一个“好”的样本。三是遇到无回答,包括找不到被调查单位、被调查者拒绝回答和个体特征数据难以取得等情况。这类情况在抽样实践中也是经常出现的,并且具体原因十分复杂,很难事先进行预防。对于这类情况,如果在样本中直接剔除无回答单位,那就等于缩小了样本容量,样本容量缩小自然就会降低样本的代表性;如果采取替代方法,那么如何替代就是一个问题,替代比例和替代方法都会在一定程度上影响样本的代表性。我们所能做的,除了尽量想办法提高回答率外,就是采取最接近随机性的替代方法来补充样本单位,以获取一个尽量“好”的样本。可见,在抽样实践中,样本代表性是具有相对性的。
在这里还需要强调指出的是,我们有时只能获取没有随机性基础的样本(例如对某类特殊人群的调查),或者只能得到样本容量不足的样本(例如对稀有病例的调查)。我们认为,对于这种情况也不能死扣样本的代表性,因为从信息的角度看,任何样本都包含有价值的信息,都或多或少可以作为推断的依据。通常的做法是,我们可以通过辅助信息的选择和利用、通过构造适当的估计量来弥补样本代表性的不足。实践证明,只要辅助信息较完备,估计量偏差控制在合理的范围内,依据代表性不足的样本同样可以给出效果较好的估计。理解这一点很重要。
(作者单位:浙江工商大学)
样本代表性在实践中具有相对性
尽管从理论上说,样本代表性是抽样设计的核心内容之一,但因为在抽样实践中会遇到这样或那样的问题而变得具有相对性,需要根据实际情况灵活加以处理。也就是说,在一定的抽样设计下,如何根据实际情况获取一个尽量重点加以关注的。
前面已经指出,样本代表性是一个整体性的概念,但具体的样本却有“好”与“差”的区别,而什么是好、什么是差,显然具有相对性。我们所要做的就是在样本代表性的一般意义上获取一个满足事后“代表性检查”的样本,这是实际抽样的关键所在。然而要做到这一点并不容易,因为在实际抽样中我们可能面临如下困难:一是抽样框不完善,具体包括丢失个体、过涵盖(包含非同质个体)和复合联接(抽样代码与个体之间存在非一一对应关系)等问题,其直接结果是造成抽样的随机性基础受到破坏,或使一些个体被排除在调查范围之外,或使样本包含了非同质的个体,或使一些个体被抽中的概率增加或减少,从而难以保证样本代表性的客观基础。对于这种情况,我们必须事先加以预防,积极检查核对补充。但对于一些大型的调查,真正完备的抽样框几乎是不存在的,或多或少有一些缺陷,但我们不能因此就放弃抽样调查,而是要在抽样设计时就考虑到可能存在的问题并提出应对或补救的
而当然也就谈不上什么样本代表性了。“好”的样本,才是抽样实践中需要
41
2
010. 8
见 解