标准误与标准差

sd Std Dev,Standard Deviation 标准偏差(Std Dev,Standard Deviation) 一种量度数据分布的分散程度之标准，用以衡量数据值偏离算术平均值的程度。标准偏差越小，这些值偏离平均值就越少，反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。标准偏差公式：S = Sqr(∑(xn-x拨)^2 /(n-1)) 公式中∑代表总和，x拨代表x的算术平均值，^2代表二次方，Sqr代表平方根。例子：有一组数字分别是200、50、100、200，求它们的标准偏差。 Java代码

1. x拨 = (200+50+100+200)/4 = 550/4 = 137.5

2. S^2 = [(200-137.5)^2+(50-137.5)^2+(100-137.5)^2+(200-137.5)^2]/(4-1) =[62.5^2+(-87.5)^2+(-37.5)^2+62.5^2]/3 =[3906.25+7656.25+1406.25+3906.25]/3 = 16875/3 = 5625 3. 标准偏差 S = Sqr(5625) = 75

cv 变异系数（coefficient of variation），亦称离散系数（coefficient of dispersion）或相对偏差(rsd)，是标准偏差与平均值之比，用百分数表示，计算公式为：

cv = sd/mean ×100%

200、50、100、200的cv=55%

在我用于本科毕业论文答辩的ppt里的某页赫然写着这么一行：“标准误：标准差除以样本量的平方根”。这是我对“数据处理”部分特地作出的一条说明。前些天打开看到的时候，我不禁有些囧。当年我们的《生物统计学》是一门选修课，授课的是生科院生物信息学方向的一个牛人，长得像藏人，不过一听口音就知道他家和我家肯定离不太远。

不论生物还是药学，这门课历来就是门选修课。而且学的内容很浅，考试是开卷。我学得不咋地，学完的时候感觉，统计学说来就一句话：“有没有显著性差异”。你说这话啥意思，我也不太懂，能套公式把结果算出来就成。要说起来，有关统计学的基本知识，早在大一上分析化学的时候就专门讲过，很多实验报告也都要算平均数和标准差。

等到做完毕设写论文要处理数据的时候，我突然就发现了一个问题，为什么我看的那么多paper里面，在算样本平均数的时候，有的附的是标准差，有的附的是标准误呢？而且国外的paper都是用的标准误。我又不懂，但是搜到有篇专门讲两者区别的文章说要用标准误，我也就用了。两者啥区别呢？标准差除以样本量的平方根就等于标准误。可这数学关系反映了什么实质？我还是不懂。只是记得上生物统计学的课的时候，老师特别强调说国内生命科学和医学方面的大部分paper都存在统计学错误。我就生怕我这么“正确地”使用标准误反而显得“错误”了，于是有了ppt上多此一举的那句话。

其实统计学是很多学科都需要用到的，而且重要性不言而喻。可就我所了解的，如我们这些生、化、医、药专业出身的学生有多少真的理解了统计学呢？大部分都是停留在机械用软件、套公式、填结果的层面吧。当然了，这里存在一个学科差异的问题，也不是谁刻意地不想去理解统计学。比方说，去年国家就三聚氰胺出台了一个最低检测限的标准的时候，很多没有科学素养的记者就开始疯狂质疑了。其实对“检测限”这个概念我们就很理解，我想心理学专业的学生倒不见得认同，而“检测限”的本质同属统计学中的“概率”和“误差”的范畴。不过总的说来，我们的统计学训练比起心理学实在差得太多。

终于进入正题了，因为统计学是心理学的基本功，所以我正儿八经地看起了考纲版的那本国内最经典的《现代心理与教育统计学》，等把第八章假设检验看完之后，我暂停了。我的基本感受是，一路看下来，条理是清晰的，逻辑是明白的，我也是理解的。如果说单纯应试的话，看到这样没问题。可这门课程当然不止是应试之用的，那么，我在想，我看了这么多，它讲的这些东西到底是在干嘛呢？对，我的意思很明白。这本书是在讲鱼不是在讲渔。我纵使把计算标准误的公式及其意义理解得化成灰也认识，可它到底是干嘛的呢？

我暂停是为了找些paper来自己体会统计学的用处，这时发现了手头正读着的《行为科学统计》，如获至宝地读完第一章我就恨不得骂脏话了，差距怎么能

这么大？！为什么一本国内最经典的心理统计学教材和美国的一本也许还不是最经典的心理统计学教材差了这么远？所以等读完第一部分的时候，我想哭了（呃，当作形容词看待吧，不是真的要哭）。昨晚读完第二部分的时候，我又想哭。因为，我终于理解了“标准误”到底是用来干嘛的！明白了当paper中出现它的时候是说明了什么实质问题！

索性抓几个点来比较这两本教材。

1、《现代》在讲中数的时候就讲到了内插法，讲百分位数的时候又讲了。可是它这两处都没有提“内插法”仨字儿，到后来好几个章节计算概率的时候却冒出来“内插法”仨字儿让人不知所云。这也就罢了，关键是，同样讲内插法，原理和方法都是一样的，《现代》用了个形式巨复杂的公式来套用，看着就不敢用了。《行为》没用公式，直接画个小表就可以口算了。

2、类似于上面的情况，在针对很多不同类型的概念和方法时，《现代》的很多习题我在做的时候都不得不翻到正文中按例题的步骤来套用，《行为》的习题基本上都是口算，也不用回顾前面的例题。

我忍不住举一个实例对比：

《现代》版某例题：

有10道正误题，问答题者答对几题才能认为他是真会，或者说答对几题，才能认为不是出于猜测因素？

《行为》版某例题：

假设你正在用请人预测从整副牌中抽出的牌的花色来测试人的特异功能。在48次实验中，一个人能正确预测多于20次的概率是多少？

这两道题的解法是一致的，考察的点也差不多。可是，前面那题纠结的提问方式我每次读到都抽搐，恨不得转换几次才能理解题意。《现代》中类似的绕心令比比皆是。难道把话说明白些就这么困难吗？更不用说《现代》版在讲解题步骤时的死板了，逼得我只能依葫芦画瓢呀。

3、《现代》版太瞧得起我们学生了，很多概念突然就冒出来了，也不告诉你怎么回事，比如“自由度”；有些概念稍微讲解了几句也没讲明白，比如“有偏统计量”它怎么就有偏了呢？再有就是我前面说的，讲了那么多讲到最后，我也搞不清楚它到底是可以用到心理学什么地方去（书中举例清一色的是学生测验之类的）。而《行为》对于很多概念都是用基本属于“一加一等于二”的方式一板一眼告诉你它的含义。还真别说它的讲法像是对待傻子，在一门新学问面前，我们不就和幼儿园接触到“一加一等于二”之前一样无知么？受的教育再高也不保证您就触类旁通呀。同时，它的举例涉及心理学各分支，这才是学以致用呀。

4、再从章节设置的顺序上，我不否认《现代》版有它的内在逻辑，但那种逻辑基本上是站在一个已经掌握了统计学的人的角度展开的。对于初学者，越往后越觉得章节之间的关系诡异。而《行为》则是完全从学习者的视角设置章节，完全让人能够体会到循序渐进的快乐。比如，全书四部分，第一部分讲描述统计，第二部分讲推论统计基础，而实际上，这部分的三章共就讲了三个概念：z分数、概率和标准误。放到《现代》里才三节的篇幅。可人家就是咬文嚼字地把这三个对于推论统计超级无敌关键的概念给讲通透了，我现在一点疑问都没有了！

5、《现代》我看完一章脑细胞就基本上耗尽了，因为时不时就要停下来揣摩。而《行为》一口气看三章也没问题，就像在读小说。掌握同样多的知识，后者用的时间大概还短一些。毕竟统计学在心理学里是拿来实用的，不是要我费劲去培养数学的逻辑思维能力的吧！

6、另外，我不太清楚原版《行为》会有多少排版错误，但至少，《行为》译本的排版错误比《现代》要少得多。另外的另外，《行为》每章的SPSS讲解比《现代》清楚太多。另外的另外的另外，《行为》的每节小测验都附有答案，每章习题的奇数题都附有答案。

说到最后，我想引申一下。

《现代》代表了国内某类优秀教材的风格，学术至上，用语严谨，条理分明，言简意赅，同时也严肃、枯燥和死板；

《行为》代表了国外某类优秀教材的风格，学生至上，用语亲切，行文流畅，点到方止，同时也失去少许严密性、简明性和学术性。

实际上国外还有一类优秀教材，或者我更愿意称其为优秀读物。拿统计学来说有大名鼎鼎的《统计学的世界》，这类教材之所以优秀，是因为能被学院之外的大众所接受，也正是为了吸引更广泛的读者，它放开了学术门槛。我这么说并不是存在某种“歧视”，而是当其学术品质泛化后，对于专业领域的学习者而言就相当程度的失去了教材的功能，看看好玩儿罢了，既对付不了考试，更应付不了研究。

而我无疑是相当认可《行为》这类既保证了学术水准又满足“教”“材”功用的教材的。

以上仅代表个人口味，就如同文言文和白话文和网络语各有所爱。

最后的最后，热情地向所有需要在今后的学术研究中运用或理解统计学知识的各专业同学推荐此教材。

第六章标准误与可信区间--第一节抽样误差与标准误

第六章标准误与可信区间第一节抽样误差与标准误

一、抽样误差的意义

在第一章第二节曾提到过样本与总体以及抽样误差的概念，那里谈到，由于存在人与人之间的个体差异，即使从同一总体用同样方法随机抽取例数相同的一些样本，各样本算得的某种指标，如平均数（或率），通常也参差不齐存在一定的差异。样本指标与相应的总体指标之间有或多或少的相差，这一点是不难理解的。如某医生从某地抽了120名12岁男孩，测量其身高，计算出均数为143.10cm，若再从该地抽120名12岁男孩，其平均身高未必仍等于143.10cm，也不一定恰好等于某市12岁男孩身高的总体均数，这种差异，即由于抽样而带来的样本与总体间的误差，统计上叫抽样波动或抽样误差。

抽样误差和系统误差不一样，关系系统误差，当人们一旦发现它之后，是可能找到产生原因而采取一定措施加以纠正的，抽样误差则无法避免。因为客观上既然存在个体差异，那么刚巧这一样本中多抽到几例数值大些的，所求样本均数就会稍大，另一样本多抽到几例数值小些，该样本均数就会稍小，这是不言而喻的。

抽样误差既是样本指标与总体指标之间的误差，那么抽样误差小就表示从样本算得的平均数或率与总体的较接近，有样本代表总体说明其特征的可靠性亦大。但是，通常总体均数或总体率我们并不知道，所以抽样误差的数量大小，不能直观地加以说明，只能通过抽样实验来了解抽样误差的规律性。

二、标准误及其计算

为了表示个体差异的大小，或者说表示某一变量变异程度的大小，可计算标准差等变异指标来说明，现在我们要表示抽样误差的大小，如要问，从同一总体抽取类似的许多样本，各样本均数（或各率）之间的变异程度如何？也可用变异指标来说明。这种指标是：

（一）均数的标准误为了表示均数的抽样误差大小如何，用的一种指标称为均数的标准误。我们以样本均数为变量，求出它们的标准差即可表示其变异程度，所以将样本均数这“标准差”定名为均数的标准误，简称标准误，以区别于通常所说的标准差。标准差表示个体值的散布情形，而标准误则说明样本均数的参差情况，两者不能混淆。下面用抽样实验进一步说明之。

将100名正常人的红细胞数（万/mm3）写在100颗大小均匀的豌豆上。这些红细胞数见表6.1，其均数为500，标准差为43。把这些豌豆放在一个口袋里，彻底混匀后取出一颗，记下红细胞数，放回袋内，混匀后再取出一颗，记下数字后再放回去，如此继续下去，这是一个取不完的总体，这样每取10个数字作为一个样本，共抽取了一百个样本，并计算每一样本的均数与标准差，例见表6.2。

表6.1 红细胞数抽样实验用的正态总体

μ=500 σ=43（单位：万/立方厘米）

表6.2 红细胞数抽样实验中的样本举例

第一号样本均数与标准差的计算：

X＝4.886/10=488.6

将一百个样本均数加总，得到的数值为50,096.7,又这一百个样本均数平方之和为25,114，830.91，于是代入标准差的计算公式，求得一百个样本均数的标准差又称标准误为

当总体标准差已知时，可计算理论的标准误σχ，公式是

(6.1)

表6.1抽样实验用的总体标准差是43，每个样本的例数是10，代入公式得

可见由一百个样本均数求得的标准误13.50与理论的标准误13.60比较接近。

在实际工作中，总体标准差往往并不知道，也不象抽样实验那样从同一总体随机抽取n相等的许多样本，而是只有手头一个样本。在此情况下，只能以样本标准差S作为总体标准差σ的估计值。这样，公式6.1中的σ就要用S代替，σχ改为Sχ，以资区别。

(6.2)

将第1号样本的标准差及例数代入式6.2，得

再若将第2号样本的数字代入，Sχ将成为10.74，余类推。由于不同样本的标准差并不相等，可见Sχ也有抽样波动，这一点是值得注意的，但它仍不失为σχ的较好估计值。

以上介绍了求标准误的三种方法，其实我们平常用的只是式6.2，而通过前两种方法的对比则可使我们明瞭标准误的含义。标准误是描述样本均数变异情况的一个指标，它的大小与总体标准差σ（一般只能用S估计）成正比，而与样本含量n的平方根成反比，因此若标准差小或样本含量大时，求出的标准误就小（标准误小表示样本均数与总体均数较接近），X代表μ较可靠，所以假若手头资料中观察值的变异程度较大（S大）时，为了保

证样本代表总体比较可靠，就得适当增大样本含量（n）。

（二）率的标准误若总体包括某事件的发生数与未发生数两类，所化成的比例或成数即为总体发生率（符号π）与未发生率（１-π）。从总体中随机抽取许多样本(n相等)，算出各个样本率（用P表示），会是或大或小有波动的。为了表示样本率之间或样本率与总体率之间的差异程度，当总体率π已知时，可计算理论的标误σp,其公式是

(6.3)

实际工作中往往不知道总体率π这时只能以样本率P作为总体率π的估计值，求得率的标准误，并用SP表示，计算公式为

(6.4)

现举例说明其求法。

例6.1 某医生检测了110名成年健康人的尿紫质，发现阳性者11人，阴性者99人，于是算得阳性率P及率的标准误SP如下：

P=11/110×100%=10% （用小数表示为0.10）

若要进一步增强样本率估计总体率的可靠性，可加大样本含量。

三、样本均数的分布

从同一总体里随机抽取n相同的许多样本，这些样本均数吴正态分布。如前面所述正常人红细胞数的抽样实验中已求得100个样本均数，其中多数与总体均数μ比较接近而集中分布在其周围，且左右基本对称，见表6.3（此表由表6.4中的100个均数划记归组而得）。

表6.3 红细胞抽样实验中100个样本均数的分布

表6.4 一百个样本的均数、标准差、95%可信区间

已知按正态分布，理论上有95%的变量值分布在均数加、减1.96倍标准差（样本均数的标准差称标准误）的范围内，这里也即100个样本均数中有95个分布在500－1.96(13.60)=473.34至500+1.96(13.60)=526.66的范围内。现看表6.4，在100个样本均数中，第6号（546.7）、第72号（465.3）、第97号(530.1)在上述范围之外，第42号(526.4)及第75号(526.6)就在临界值附近，其余95个（若将第42及75号计算在内则为97个）样本均数在此范围之内，将实际分布与理论分布相对照见下表6.5。100个样本均数的实际分布与正态分布的理论基本符合。