社会统计学_教案

《社会统计学》教案

教学目的和要求:通过本课程的学习,使学生熟悉常用的统计方法,并且学会如何将统计分析知识应用于社会调查研究之中,掌握统计方法的灵活运用。本课程偏重统计方法的实际应用,而非其数理基础。在教学过程中,注重对于不同统计分析方法适用条件的说明,统计公式的讲解,以及对于统计值意义的说明。 教学重点和难点:本课程的教学重点是不同统计分析方法所适用的条件以及统计值意义的解释。难点是统计公式的讲解以及不同统计分析方法在实际社会调查研究中的应用。

教法特点说明:课堂讲授为主,注重对实例的讲解。

教材和参考书目:

1、卢淑华著:《社会统计学(第三版)》,北京大学出版社,2007年。

2、李沛良著:《社会研究的统计应用》,社会科学文献出版社,2002年。

3、柯惠新等著:《调查研究中的统计分析法》,北京广播学院出版社,1992年。

4、风笑天著:《现代社会调查方法》,华中科技大学出版社,2001年。

5、袁方主编:《社会研究方法教程》,北京大学出版社,1997年。

第一章 统计学的简史

教学目的和要求:通过本章的学习使学生了解统计学的产生、发展历程,对概率论、描述统计、推论统计有初步的认识。

教学重点和难点: 重点是概率论的兴起,难点是大数法则、正态分布。 教学方法:课堂讲授

教学内容:

一、统计学的起源

统计技术:古埃及、古中国(大禹治水)

统计学:17世纪中叶 Status(拉丁词汇,国家、状态)——Statistics 研究国家的宏观状态①国势学 ②政治算术

二、国势学(17世纪的德国)

德国大学学派:H·Coring 用文字记录一个国家的状况和制度

G·Achenwall 第一个定义——把国家的显著事项全部记录

下来的学科

三、政治算术(17世纪的英国)

英国的经验主义者:用数量或数字的方法说明国家的特征

J·Graunt 《关于伦敦死亡表的观察》用数量分析社

会、政治问题

William Petty 《政治算术》

四、概率论(数理特征更加明显)

1.J Bernoulli(贝努里) 瑞士 大数法则 借助大数法则可以从社会现象复杂不定的偶然性中寻找规律,它说明了社会现象的稳定性

2.Gauss(高斯) 德国 正态分布(中心极限定理的基础)

五、数理统计学

Adolphe Quetelet(阿道夫·凯特勒)法籍比利时人

数理统计学派的创始人 “经验社会学之父” 《社会物理学》

“平均人”

六、 描述统计

高尔顿(F Galton) 回归现象 根据对1078对父、子身高的散布图发现,

虽然身材高的父母比身材矮的父母倾向于有高的孩子。 但平均而言,身材高大的其子要矮些,而身材矮小的其 子要高些。或者说,无论高个子或矮个子的后代,都有 向均值方向拉回的倾向。这种遗传上身高趋于一般,“退 化到平庸”的现象,即是回归现象。

卡·皮尔逊(K Pearson)分布、相关、频数、皮尔逊系数

七、推论统计

部分→整体 T检验、F检验

第二章 社会调查研究与统计分析

教学目的和要求:通过本章的学习使学生了解社会调查研究的历程,明确统计分析在社会调查研究中所处的位置和作用。熟悉统计分析的具体内容,牢记统计分析方法的选择标准,能够熟练地判断应用。

教学重点和难点: 重点是社会调查研究的历程,难点是统计分析方法的选择标准,尤其是变量的测量层次。

教学方法:课堂讲授,结合实例讲解

教学内容:

第一节 社会调查研究历程

一、概念

二、社会调查研究的历程

1.确定课题

重要性、可行性(主观限制、客观限制)

课题的选择应具有一定的理论意义或应用价值,应当是社会迫切解决理论问题或实际问题就要有一定的迫切性,另外还要注意课题的可行性,以及研究者的主客观条件是否具备等。

2.初步探索

通过查阅文献和向有经验的,有知识的人请教或者自己进行探索性调查,搜集获取第一手资料。

3.建立假设

差异式(如果A越高,则B也 (如果A越高,则B也越高)

函数式(A不同则B不同)

4.

理论解释和澄清概念

概念的操作化:把那些通常只存在于我们头脑中的抽象概念,转化为我们

看得见、摸得着,可以观察的具体指标

社会地位——个人在社会中的位置——收入、职业、受教育程度

5.设计问卷

封闭式问题、开放式问题

6.试填问卷

7.调查实施

8.资料整理:问卷的核对、登录

9.统计分析与命题检验

二、社会学研究的两个层次

1.抽象层 :包括概念 命题 理论

2.经验层:包括观察 量度 测定 分析等

两者的关系紧密相联系遵循着:理论来源于实践,而又必须受到实践的检验

第二节 社会调查资料的特点和统计分析的内容

一、社会调查资料的特点

1.随机性

大部分社会现象都具有非确定性,即在某种条件下可能发生也可能不发生。

2.统计规律性

在表面上是偶然性在起作用的地方,这种偶然性始终是受内部的隐蔽着的规

律支配的,而问题就在于发现这些规律。

二、统计分析的内容

描述性统计:主要介绍资料的整理,分类和简化或特征研究

推论性统计:主要介绍参数估计、假设检验、回归、列联、方差、等级相关

等统计技术。

第三节 怎样选用统计分析方法

一、调查的方式

全面调查——描述性统计

抽样调查——推论性统计

二、变量因素

1. 变量个数 单变量 双变量 多变量

2. 变量层次

定类:最低的变量层次,取值只有类别属性之分,而无大小程度之分。

数学运算符表示(=、≠)

定序:取值除了有类别属性之外,还有登记次序的差别。数学运算符表

示(=、≠、>、

定距:取值除了有类别、次序属性之外,取值之间的距离可用标准化的。

距离去测量。数学运算符表示(=、≠、>、

定比:除具有以上三种属性外,还可构成一个有意义的比率。

数学运算符表示(=、≠、>、

只满足定距而不满足定比的变量很少,因而研究中不再区分定比

定距,而合为一类,称作定距变量)

①高层次变量具有低层次变量的特性,反之不成立

②一个变量他的层次并不是唯一的,

③变量的层次与社会实际衡量之间存在着差距或不一致

④变量类型的划分也不是唯一的,可根据自己领域的需要来划分。

第三章 单变量描述性统计分析

教学目的和要求:通过本章的学习使学生能够根据变量的测量层次,选择适当的表格、图形对数据资料进行初步简化,熟练地应用集中趋势和离散趋势测量法,对调查资料进行简化分析。

教学重点和难点: 重点是集中趋势测量法、离散趋势测量法,难点是不同类型的统计图,尤其是直方图。

教学方法:课堂讲授,辅之以实例讲解

教学内容:

第一节 最基本的单变量描述统计技术

一、定类变量

1、频次分布

文字法、集合法、统计表法、统计图法

2、频率分布

文字法、集合法、统计表法、统计图法

3、统计图——条形图、圆瓣图

二、定序变量

累加频次、累加频率

三、定距变量

1、连续型变量的分组问题

组数;等距分组or非等距分组;决定分点的精度(组限、组距、组中点);

2、统计图

矩形图or直方图;折线图

3、曲线类型

四、统计表的制作

1、统计表必须具备的内容

表号、表头、标识行、主体行、表尾

2、制表过程

收集数据;找出极差R=最大值L-最小值S;确定组数;计算组距;实际

分组;

取中心值;统计频次,制表

第二节 集中趋势测量法

一、定类变量——众值

Mo——出现次数最多的值

某班男生15人,女生30人。Mo=女生

二、定序变量——中位值

Md——在一个序列的中央位置之值。高于此值的有50%的个案,低于此值的也有50%的个案。

(一)未分组数据

1、原始资料

首先要对个案按照从低到高的顺序排列;其次计算中位值所在的位置Md位置==n+1/2;最后查找对应的数值

2、频次分布

(频次分布表必须是按照由低到高的顺序排列的,而且列出了向上累加频次)

首先计算中位值所在的位置Md位置==n+1/2;其次按照累加频次找出中位值。

(二)分组数据

Md位置==n/2 ncfMd=L+ w f

L=中位值组之真实下限 f=中位值组之次数 w=中位值组之组距

cf↑=低于中位值组真实下限之累加次数 n=全部个案数目

三、定距变量——均值

X——将变量的各个数值相加起来,求取一个平均的数值

(一)未分组数据

1、原始资料

x n是全部个案数目 nx表示各个个案数值之和

2、频次分布

Xfx x是变量的各个取值,f是每个变量值对应的次数,n个案数n

(二)分组数据

fxXnm xm是组中心值 xmUL 2

小结:①三值设计的共同目的,都是希望通过一个数值来描述整体特征,以便简化资料。他们都反映了变量的集中趋势,一般说: 众值:适用于定类、定序和定距变量; 中位值:适用于定序和定距变量; 均值:适用于定距变量。它们三者的代表性决定了它们具有估计和预测的作用。 ②众值仅使用了资料中最大频次这一信息,因而资料使用不完全。中位值,考虑了变量的顺序和居中位置,因此和总体频次分布有关,但因为只考虑居中位置,因而其他变量值的变化很难影响中位值,它也是三个集中值中最不敏感的。均值,既考虑频次又考虑变量值的大小,因而更灵敏。它的解释力最强,具有较高的统计价值。③均值虽然灵敏,但对严重偏态的分布容易失去代表性。即存在非常极端的分布值时,代表性不足。例如,一个国家会因某些少数富翁的存在,使平均收入变得很高。且在分组资料中的极端组没有组限时,不能求出均值,只能用中位值。④偏态图形和三值的关系。对于正态分布的图形来说,三值是合一的。当图形正偏或负偏时,均值变化最快,中位值次之,众值不变。

第三节 离散趋势测量法

一、定类变量——异众比率

γ——非众值的次数与全部个案数目的比率。 公式为:nfmo n

n是全部个案数目

fmo是众值的次数

二、定序变量——极差、四分位差

(一)极差 R=最大值-最小值

(二)四分位差

1、未分组数据

(1)原始资料 Q1位置n13n1 Q3位置。 44

Q=Q3—Q1

(2)频次分布

2、分组资料

Q1位置n3n Q3位置 44

n3ncfcf13 Q1L1wQL1w333f1f3

Q=Q3—Q1

L1=Q1属组之真实下限 L3=Q3属组之真实下限 f1=Q1属组之次数 f3=Q3属组之次数 cf1↑=低于Q1属组下限之累加次数 cf3↑=低于Q3属组下限之累加次数

w1=Q1属组之组距 w3=Q3属组之组距

三、定距变量——标准差、方差

(一)标准差、方差

离均差xx→离均差之和xx→离均差绝对值之和xx→xx→S22xx

n

2/

S

频次分布

S

分组资料

S

(二)变异系数/离散系数 1、使用离散系数的原因 2、CVS

x四、小结

异众比率最适合于分析定类变项,也可分析定序、定距变项。它仅考虑频次 极差、四分位差(十分位差)最适合用来分析定序变项,也可分析定距变项。极差仅仅考虑了变量的两个极端值,而四分位差考虑了变量的次序或大小。

标准差(或方差)只能用来分析定距变项。由于它们的计算涉及每一个变量值,所以它们反映的信息在离散值中是最全面、最可靠的变异描述指标。方差还具有可加性,能够参与进一步的统计运算。不过,也正是由于标准差和方差的计算涉及每一个变量值,所以,它们也会受到极端值的影响,当数据中有较明显的极端值时不宜使用。另外,它们在计算中实际都使用了均值,因此实际上只有均值能反映集中趋势时才能使用方差和标准差来反映离散趋势。因此,实际上方差和标准差的适用范围应当是正态分布。还有一点要说明的是,比较均值,不一定要看离散趋势,但比较标准差时,一定要看均值的情况。变异系数的计算涉及均值和标准差,因此,它也只能用于分析定距变量。它实际是对标准差的修正。

离散趋势测量法和集中趋势测量法是有互补作用的。二法并用,就可以一方面知道资料的代表值,有利于估计或预测工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。

第四章 简化两个变量的分布

教学目的和要求:通过本章的学习使学生能够对相关及其性质有初步认识,学会制作与分析列联表,明确选择相关测量法的标准。

教学重点和难点: 重点是列联表、PRE意义,难点是相关关系与因果关系。 教学方法:课堂讲授,辅之以实例讲解 教学内容:

第一节 统计相关的性质

一、什么是相关?

相关,是指一个变量的值与另一个变量的值有连带性。具体来说,如果一个变量的值发生变化,另一个变量的值也有变化。 二、相关的强度和方向

1、相关强度

相关系数——表示变量间的相关程度的量的指标。

相关系数的特征:(1)不具有实际数学运算意义,只能表示相关程度更强。 (2)统计相关:相关系数是统计得来的,它只能说明两种现象间可能存在一定的关联度,不一定具有实际意义,即实际上可能并不存在,这也就是我们讲的统计相关。

(3)取值范围:[-1,1]

相关系数的正负号表明了相关的方向。其绝对值则表明了相关的程度。一般0表示无相关,1代表全相关(-1是完全负相关,1则是完全正相关)。绝对值越大,说明两变量之间的相关程度越强。 2、相关方向

正相关:一个变量的值增加时,另一个变量的值也随着增加。收入水平-消费水平

负相关:一个变量的值增大时,另一个变量的值却减小。教育水平-理想子女数目

需要大家注意的是,相关方向的分析只限于定序以上层次的变量。 三、相关关系的类型(按变量变化的表现形式)

直线相关、曲线相关

直线相关:当变量X发生变动时,变量Y的值也发生大致均等的变动。 散点图——适用于定距以上层次的变量,它是以直角坐标的横轴表示变量X的取值变化范围,纵轴表示变量Y的取值变化范围。根据每一个个案在变量X和变量Y上的值来确定坐标图中的每一个点。直线相关表现在直角坐标系中,X、Y值所对应的点分布狭长,成直线趋势。曲线相关表现在直角坐标系中,X、Y值所对应的点分布分散,呈曲线趋势。 四、因果关系

1、定义:当其中一个变量变化时(取不同的值时)会引起或导致另一个变量也随之发生变化(取值也不同),但反之不成立,当后一变量变化时,不会引起前一变量的变化。

自变量X→因变量Y

自变量——变化发生在前面,并且能引起另一变量发生变化的那个变量 因变量——变化发生在后面并且这种变化是前边变量的变化所引起的那个变量

对称关系、不对称关系 2、判断条件

相关关系可能包含着因果关系,但并非所有存在着相关关系的变量之间,都一定存在因果关系(相关的两个变量可能仅仅是共同变化),而因果关系必然是相关关系。

因果关系的判断条件:

① 变量X与变量Y之间存在着不对称的相关关系。

②变量X与变量Y在发生的顺序上有先后之别。先有自变量的变化,后有因变量的变

化。如果两个变量的变化同时发生,分不出先后,则不能成为因果关系。

③变量X与变量Y的关系不是同源于第三个变量的影响。即变量X与变量Y之间的关系不是某种虚假或表面的关系。

第二节 交互分类与百分表

一、定义

交互分类,就是同时依据两个变量的值,将所研究的个案分类。交互分类的结果通常以交互分类表(又称列联表)的形式反映出来。

列联表适用于对两个定类变量(或一个定类、一个定序变量)的分析。 边缘次数、条件次数(在自变量的每个值(条件)的情况下依变量的各个值的个案数目。) 二、列联表制作准则

1.每个表的顶端要有表号和标题。 2.绘表时所用的线条,要尽可能简洁。 3.百分号的简便处理。 4.列出边缘次数。

5.表内百分率数值的小数位要保留多少,取决于研究的需要,但前后要保持一致性。

6.如何安排交互分类的两个变量。自变量放在表的上层,将因变量放在表的左侧。表的大小=横行数目(r)*纵列数目(c)。

7.交互分类中两个变量的变量值应有所限制,不宜太多。 三、百分率的计算

一般的原则是:根据自变量的方向。

如果依变量在样本内的分布不能代表它在总体内的分布,则百分率的计算要依据依变量的方向。

第三节 简化相关与消减误差

相关测量法——以一个统计值表示变量与变量之间的关系。 一、相关测量法的选择标准

1.测量层次

定类-定类;定序-定序;定距-定距;定类-定序;定类-定距;定序-定距。 2.对称关系

3.统计值的意义,一般选用具有PRE意义的测量法。 二、消减误差比例PRE

PRE=(E1-E2)/ E1

E1——不知道X值时,预测Y值时所产生的全部误差

E2——依据X值预测Y值时所产生的全部误差 E1—E2——依据X值预测Y值时所减少的误差

PRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例越大,也就是说,X与Y的关系越强。PRE=1,X与Y是全相关;PRE=0, X与Y之间无相关。

PRE数值的意义,就是表示用一个现象(如变量X)来解释另一个现象(如变量Y)时能够减除百分之几的错误。 三、2*2表——υ(佛爱)系数和Q系数

1. υ系数(佛爱)



ad=bc时,υ=0,两个变量相互独立。a=d=0(或b=c=0),与 b*c的差异越大,就表示相关程度越强。

2.Q系数

Q

adbc

adbc

a\b\c\d中有一个为0,则Q1

1。如果a*d

第五章 相关测量法与测量层次

教学目的和要求:通过本章的学习使学生能够熟练的依据变量的测量层次,变量是否对称以及是否具有PRE性质,选用适当的相关测量法,以判断变量间的相关程度。

教学重点和难点: 重点是两个定类变量、两个定序变量以及两个定距变量相关关系的分析,难点是简单线性回归。 教学方法:课堂讲授,辅之以实例讲解。 教学内容:

第一节 两个定类变量:λ,τ

一、λ相关测量法

1、基本逻辑

不知道x值时,预测y值所产生的误差E1nmaxn*j (n为全部个案数目,maxn*j是y变量的众值次数,即最后一列中的最大值)

根据x变量预测y变量所产生的误差E2。 x=x1时,y的众值次数为maxn1j x=x2时,y的众值次数为maxn2j x=x3时,y的众值次数为maxn3j x=xc时,y的众值次数为maxncj

maxn1j+maxn2j+maxn3j+„+„+maxncj= Σmaxnij(Σmaxnij

i=1

i=1

c



c



是x变量的每个值之下y变量的众值次数之和,体现在列联表当中就是每列最高

次数之和)

E2nmaxnij

i=1

c

c

c

maxnij]maxnijmaxn*jE1E2nmaxn*j[ni=1

i=1 =λPRE==

E1nmaxn*jnmaxn*jy

用y变量预测x变量的

r

r

nmaxni*nmaxnijmaxnijmaxni*j1j1

λx=

nmaxni*nmaxni*分析对称关系的λ系数



j=1

maxnijmaxnijmaxni*maxn*j

i=1

rc

2nmaxni*maxn*j

rj1

(maxni*x变量的众值

次数,maxnij =y变量的每个值之下x变量的众值次数之和,体现在列联表中就是 每行最高次数之和。)

λ相关测量法的基本逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。

2、取值范围[0,1]

x与y无关时,边缘频率分布等于条件频率分布 即

n11n21n31

n1*n2*n3*

c

n*1n12n22n32

,n1*n2*n3*n

n*2

n

maxnijmaxn*j λ=0 ∴ i1y

x与y全相关时,各列及各行都只有一个不为0的频次值

∴n= maxnij,λy=1。在0到1之间,λy越大表示两个变量越相关。

i1c

3、使用条件

如果全部众值集中在条件次数表的同一行或同一列中,则λ系数等于0,此时其敏感性可能存在问题。

二、τ相关测量法

1、基本逻辑:不再以众值作为预测的准则,而是充分考虑边缘分布、条件分布的情况进行预测。

基本公式:E1

(nFy)Fy

n

E2

(Fxf)f

Fx

τ=

E1E2

E1

其中 n=样本容量 f=某条件次数

Fy=Y变项的某个边缘次数 Fx=X变项的某个边缘次数 2、取值范围:[0,1] x与y无关时,τ=0;

当x与y全相关时,各列及各行都只有一个不为0的频次值,由此推导得出τ=1。

3、使用条件:τ系数适用于对两个定类变量不对称关系的测量,它同样具有消减误差比例的含义。在各变量值比例失调的情况下慎用。 三、小结与讨论

λ系数,τ系数,均以消减误差比例为基础,而且在计算过程中依据的都是列联表形式。

列联表中各列的众值处于同一行时,λ系数永远为0,无法准确说明两变量之间的相关关系。此时需要选用τ系数。但在各变量值比例失调的情况下慎用τ系数。 几率比

n11n21n31

n1*n2*n3*

n*1n12n22n32

,n1*n2*n3*n

n*2

,此时,n

第二节 两个定序变量

等级相关法:目的在于分析两列等级的关系,即研究变量之间的等级是否存在着联系。

一、斯皮尔曼等级相关系数rs

1.基本逻辑

丈夫的家庭地位为变量x,妻子的家庭地位为变量y 同样分为五类:1.很低;2.较低;3.一般;4.较高;5.很高。 通过调查发现,这五对夫妇的家庭社会经济地位如下:

(1,2)(2,3)(3,4)(4,5)(5,1)——完全正等级相关、完全负等级相关

设样本容量为n,变量x共有n个等级,分别为x1,x2,x3„,xn,变量y也有n个等级,分别为y1,y2,y3, „,yn。

假设每一个个案对应的x值、y值为:(x1,y1)(x2,y2)(x3,y3)„(xn,yn)。

22222

它们等级差的平方分别为:(x1- y1)=d1(x2-y2)=d2(x3-y3)=d32 „(xn-yn)2

=dn2

斯皮尔曼等级相关系数rs1

2、取值范围[-1,1]

6di2n(n1)

2

完全的正等级相关:x1= y1;x2=y2;x3=y3;„xn=yn,此时rs=1。

完全的负等级相关:(x1,y1)=(1,n);(x2,y2)=(2,n-1);(x3,y3)=(3,n-2)„(xn,yn)=(n,1)

12

di3nn21 rs=-1

列联相关与等级相关的区别:列联相关表示两个变量的类别、属性是有关的。根据其中一个变量的类别,我们可以预测另一个变量的类别。而等级相关,表示两个变量之间的等级次序是有关的。根据其中一个变量的等级可以预测另一个变量的等级。

二、Gamma等级相关

1、基本概念

设个案A变量x和y的取值分别为xi,yi,个案B对应的变量值分别为xj, yj, 如果有:

xixjxixj

,,

yiyjyiyj

或或

xixj

yiyj

则称AB为同序对。

xixj

yiyj

,则称AB为异序对

xixj,yiyjxixj,yiyjxixj,yiyj

2.基本逻辑:

则称AB为X变量同分对 则称AB为Y变量同分对 则称AB为X,Y变量同分对

设有两个定序变量x、y。个案A(xi,yi);个案B(xj,yj)

不知道x与y存在等级相关时,若同序对数为ns,异序对数为nd(注意,这里我们不考虑同分对的情况,所以ns+nd即为总对数),则误差E1

当知道x与y之间存在等级相关,则此时的误差E2Nd

nsnd

。 2

nsndnsnd

nd

nnEE2

则PRE=1=sd

sdsdnsndE1

22

Gamma相关系数就是根据任何两个个案在某变量上的等级来预测它们在另一个变量上的等级时可以减少多少误差。换言之,它是以每对个案之间的相对等级作为预测的准则。

3.取值范围 [-1,1] 4.利用列联表计算ns、nd

ns= n1*(n5+n6+n8+n9)+ n4*(n8+n9)+ n2*(n6+n9)+ n5*n9 nd= n7*(n2+n5+n3+n6)+ n4*(n2+n3)+ n8*(n3+n6)+ n5*n3

不管列联表如何变化,不管它的r是多少,c是多少,计算同序对数、异序

对数的方法都是一样的。在列联表中,同序对、异序对互为对角线,x或y的同分对,在同列或同行,x、y的同分对为自身的排列组合。

三、其他等级相关系数

1、肯氏τ系数

ansnd

nn12

b

Tx表示变量x的全部同分对数,Ty表示变量y的全部同分对数。如果出现x和y变量都同分的情况,则既要归入Tx,又要归入Ty

112tt1Ctjtj1 Tx=C2 T= ytiiitj22

nsnd m为r*c列联表中r和c值中较小者 c2nm1/m2

四、dy相关测量法及其适用条件[分析不对称关系]

dynsnd ny:只在依变量上同分的对数 nsndny

第三节 两个定距变量:简单线性回归与积矩相关

一、简单线性回归

1.概率与概率分布

确定性现象和非确定性现象(随机现象)

随机现象:非确定性、统计规律性

统计规律性是指在一定条件下,就其个别一次的结果来说都具有偶然性,但大量重复的试验或观察,则其结果无不呈现必然的规律性。概率论恰恰是要研究随机现象的这种统计规律性。概率(P)则是这种统计规律性的数量表现。

随机事件——随机现象的结果以及这些结果的集合就称作随机事件,或简称事件。

概率分布,则要说明随机现象一共有多少种结果,以及每种结果所伴随的概率是多少。

ε=“访谈三户中核心家庭数”

它对应了4个取值

X1表示访谈结果为0户核心家庭、3户非核心家庭,X2表示访谈结果为1户核心家庭、2户非核心家庭,X3表示访谈结果为2户核心家庭、1户非核心家庭,X4表示访谈结果为3户核心家庭、0户非核心家庭。

频率、概率;频率分布、概率分布——频率分布是实验值或观测值,是我们调查所获的的结果,它是可以变化的。而概率分布是理论值,是唯一的。它是事物客观属性的数量表现。简单来说,频率分布反映的样本的情况,概率分布反映的是总体的情况。频率分布又称随机变量的统计分布或经验分布,而概率分布则称作随机变量的理论分布。只有当观测次数很大时,即样本容量很大时,随机变量取值的频率接近其概率,这时随机变量的频率分布与概率分布将大致相符。

2、回归分析的对象

回归分析所研究的就是定距变量与定距变量之间的非确定关系,而且,它主要用于研究相关中的因果关系。

所谓两变量间存在相关关系,意味着它们之间存在的是一种非确定性关系。或者说,它们存在统计规律性。我们可以采用这种方法来描述相关关系:设有两个变量x和y。当x变化时会引起y相应的变化,但它们之间的变化关系是不确定的。如果当x取任一可能值xi时,y相应地服从一定的概率分布,则称随机变量y和变量x之间存在着相关。

3.回归方程与线性回归方程

散点图适用于定距以上层次的变量,它可以用于表示两变量间的相关关系。它是以直角坐标系的横轴表示变量x的取值变化范围,纵轴表示变量y的取值变化范围。根据每一个个案在变量x和变量y上的值来确定坐标图中的每一个点。散点图具有这样一个特点:即对于一个确定的xi 值,yi的值不是惟一的,yi是随机变量。

y对x的回归方程 :E(yi)=f(xi)(E(yi)表示当x=xi时,y的均值,f(xi)则是数学中函数表达式的一般写法)。

→→线性回归方程Ε(y)=α+βx(α回归常数,β回归系数);曲线回归方程

每一个真实的依变量值yi与回归线间都有一定的关系,我们可以用式子yi=α+βxi+ei来表示。其中ei是随机误差。它的值是非固定的,因此x与y之间呈现非确定的关系。

4.回归直线方程的建立

假设从总体中随机抽取一个样本,其抽样结果为:(x1,y1)(x2,y2)(x3,y3)„(xn,yn)。

y’= a+bx

(xi,yi)→→yi'= a+bxi

iyiyi' Q=iyiabxi xxyynxyxy斜率b nxxxx22222

ybx截距aybx n

回归分析是指对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型,用来近似的表示变量间平均变化关系的一种统计分析方法。

采用的方法配合其直线或曲线形态采用回归直线或回归曲线,对应的方程式称为回归直线方程或回归曲线方程。

二、积矩相关测量法

1.基本逻辑

不知道x值, yy,E1=(yy)

知道x值,预测、估计每个y值时,以线性回归方程(y'bxa)作为准则,这样预测所犯的误差是yy',因而所消减的误差是yy—(yy')=y'y——E1-E2=(yy)

'22

(x-x)(y-y)E1E2(yy)2PRE = r2E1(yy)'22

rnxyxyr系数所要表示的,就是以线性回归方程式作为预测的工具时所能减少的误差比例。

第四节 定类变量与定距变量:相关比率与非线性相关

一、基本逻辑

一个定类变量x,一个定距变量y。

不知道变量x时, E1=yy2

知道变量x与变量y有关之后, E2yyi

PRE=E222, yyyyi2yy2ny22

iiny2

y2。 ny

ni-每个自变量取值的个案数目。y表示y变量的均值,yi表示x变量每个

取值之下,y变量的均值。

E2——[0,1]

二、例题

三、两定距变量的非线性相关

相关比率还可以用来分析两个定距变量之间的非线性关系。之前,我们说过,简单线性回归与积距相关系数r都假定变量x与变量y之间具有直线的关系。如果,这项假定不符合实际情况,利用简单线性回归和积距相关系数r就会犯错误。

第五节 定类与定序变量、定序与定距变量

一、定类与定序变量

1、威尔科森的区分系数(theta系数)

基本逻辑是根据各个个案在定类变量上的类别来估计它们在定序变量上的相对等级。

取值范围:[0,1]。不具有PRE意义。

2、Lambda或tau-y系数

二、定序与定距变量

贾斯彭的多序相关系数

分析对称关系的相关系数,系数值由-1至1之间,具有消减误差比例的意义。 但是,这个系数不仅要假定两个变量具有直线的相关,而且要假定,如果定序变量改用定距层次来测量,则其数值会做正态分布。由于要符合这两项假定,因此,很多社会学研究放弃采用该相关系数,改用相关比率,即将定序变量看作定类变量。另外,也有些社会学家将定序变量看作是定距变量,因此采用积距相关系数,甚至进行线性回归分析。

第六节 双变量相关分析小结

1.Lambda系数-λ[0,1]

两个定类变量的关系或者一个定类与一个定序变量的关系。计算公式按照对称与不对称分为两种。PRE。

2.tau-y系数-τ[0,1]

两个定类变量的关系或者一个定类与一个定序变量的关系。它只适合于分析不对称关系,敏感度高于Lambda系数。PRE。

3. 斯皮尔曼等级相关系数-rs[-1,1]

两个定序变量之间的对称关系。平方值具有PRE意义。

4.Gamma系数[-1,1]

两个定序变量之间的对称关系。PRE。

4.dy系数[-1,1]

两个定序变量之间的不对称关系。PRE。

5.简单线性回归分析

两个变量都是定距变量,且彼此关系不对称。

线性回归方程式y’=a+bx来预测或估计依变量y的数值。

6.积距相关系数r[-1,1]

两个定距变量的对称关系,而且假定两变量间呈线性相关。其平方值具有PRE的意义。除了表示相关程度与方向外,r系数值也可表示简单线性回归方程在预测时的准确程度。

7.相关比率E2[0,1]

一个定类变量与一个定距变量的非对称关系,也可用来分析定序变量与定距

变量的非对称关系。PRE。可用于分析具有非线性关系的两个定距变量。

第六章 统计推论与抽样

教学目的和要求: 通过本章的学习,使学生初步了解统计推论中的相关概念,明确抽样的历程和抽样类型的划分,能够根据调查的具体情况选取合适的抽样方法,理解概率论的基础知识,把握抽样分布及其特征。

教学重点和难点:重点是概率抽样法的分类,难点是抽样分布,尤其是正态分布的相关知识。

教学方法:课堂讲授,辅之以实例讲解。

教学内容:

第一节 统计推论的特点及相关概念

一、统计推论的特点

1、由于样本资料来源于总体,因此样本资料的特性在某种程度上能够反映总体的特性。

2、由于社会资料具有随机性,即抽样的结果不是唯一的,而且在抽样过程中不可避免地会产生误差,因此,一次抽样的结果不能恰好就等于总体的结果。

二、相关概念

1、统计值:从样本中计算出来的数值

2、参数值:总体中的数值

运用样本的统计值来推测总体的参数值。

第二节 抽样的历程

一、界定总体

二、收集个案名单

三、决定样本的大小

四、设计抽样的方法

五、评估样本的正误

第三节 非概率与概率抽样法

非概率抽样,在抽取样本时根据主观判断或其他操作上的方便进行。例如立意抽样法、偶遇抽样法和定额抽样法都属于这种。

概率抽样在抽取样本时依据的是随机原则。所谓随机原则就是在抽选调查对象时,规定了一定的程序,以保证每一个个体都有同等入选的机会,从而避免了主观因素的影响。

一、非概率抽样

1、立意抽样法,又称判定抽样法,是依据研究者的主观见解和判断,选取他认为是典型的个案。

2、偶遇抽样法。就是碰到谁调查谁。

3、定额抽样法。根据某些标准将总体分组,然后用立意或偶遇抽样法由每组中选取样本个案。

二、概率抽样

1、简单随机抽样:按照随机原则,直接从总体N个个案中,抽取n个个案作为样本,保证总体中每个个案在抽选时都有同等的机会被选中。

(1)简单重复抽样:把已经抽取出来的个案记录下来以后,再放回原有的总体中,参加下一次抽取。

(2)简单不重复抽样:被抽中的个案不再放回原来的总体中,因此是连续进行n次抽取构成一个样本。

随机数表的使用

2、等距抽样

又被称为机械抽样或系统抽样。它指的是,先将总体按某一因素排列,然后依固定的间隔,每隔若干个案抽出一个,构成等距抽样的样本。

总体中用以排序的因素,可以是与调查内容无关的,也可以是与调查内容有关的。在大规模的研究中,等距抽样简化了抽样过程,较为方便快捷。但需要大家注意的是,总体的排列不能存在周期性,否则样本的代表性会降低。

3、分层抽样

先将总体按与研究内容密切有关的主要因素分类或分层,然后在各层中按随机原则抽选一定个案构成样本。分层的目的,在于充分利用对总体已知的信息,把总体划成若干同质层,减少层内差异,增加抽样调查样本的代表性。所采用的分层标准,要保证分层以后,层与层之间的差别很大,但层内的差别则很小。

(1)分层定比抽样:样本中各层的抽取比例是相同的

(2)分层异比抽样:样本中各层的抽取比例不相同。当总体中某一层人数较少,但又具有较高的研究价值,这时可增大这一层的抽样比例。

4、整群抽样

总体被分为很多“群”,这些群是抽样的单位。一旦某些群被选入样本后,则群中的每一个个案都要接受调查。

整群抽样适用于群间差异小,而群内差异大的总体,这点正好和分层抽样相反。

5、多阶段抽样和PPS抽样

多阶段抽样,是先抽取若干群,然后从所选取的群中再抽取若干子群,再从子群中随机抽取子子群,依法继续往下抽取,直至抽中的个案满足了抽样者的要求。

PPS抽样是一种常用的多阶段抽样方法。它要求抽样的概率与群规模成比例。它的优点是不要求各阶段的群规模大小相同,只通过各阶段不等的抽样概率,最终实现了总体中的个体具有相同的抽样概率,从而保证了估计的无偏性。

f1=(某班人数/总人数)*2

f2=50/某班人数

f= f1* f 2=(某班人数/总人数)*2*(50/某班人数)=1/10

第四节 概率与抽样分布

一、概率的计算

概率指的是随机事件发生可能性大小的数量表示。

1.频率法

可以把随机事件的概率视作试验或观察次数N 趋于无穷时相应频率n/N的稳定值。这是概率的频率定义。由于试验或观察次数N为无穷是做不到的,因此,实际上可把观察次数N充分大时(例如社会调查中的样本数为1000人)的频率作为概率的近似值。

2.古典法:利用模型本身所具有的对称性来事先求得概率

⑴样本点和样本空间

随机试验,要求满足在相同条件下可以重复,而且在每次试验前虽然不能预言会出现哪一种结果,但它共有多少种可能的结果又是事先已知的。我们把随机

试验中的每一种结果称作一个样本点Ei,或称基本事件。而所有样本点的总体称作样本空间S。

扔掷一枚硬币。样本点E1:正面朝上;E2:反面朝上。样本空间S={正面朝上,反面朝上}

扔掷一枚色子。样本点E1:出现“1”点;E2:出现“2”点;E3:出现“3”点;E4:出现“4”点;E5:出现“5”点;E6:出现“6”点。样本空间S=(“1”,“2”,“3”,“4”,“5”,“6”)

⑵随机事件

基本事件自身或由基本事件组成的集合。它实际上就是样本空间S的子集。 扔掷一枚色子,“出现奇数点”就是一个随机事件。A=(1,3,5)。 ⑶古典法的使用

随机试验需要满足两个条件:

i.

ii. 样本空间只有有限个样本点。也就是随机现象的结果类型是有限的 每个样本点出现的可能性相同。即每一种结果出现的可能性相同。 当满足这两个条件时,我们即把随机试验称为古典型随机试验。

如果随机试验的样本空间包含n个样本点,它们出现的可能性是相同的。而随机事件A包含m个样本点,则事件A的概率为P(A)=

例1:扔掷一枚硬币,求出现“正面朝上”的概率。

样本点E1:正面朝上;E2:反面朝上。样本空间S={正面朝上,反面朝上}。n=2。

由于E1,E2是等可能的,所以满足古典概型。随机事件A=“正面朝上”, 包含1

个样本点E1。即m=1。概率P(A)=m1= n2

m31=。 n62m n 例2:扔掷一枚色子,出现“偶数点”的概率 n=6。随机事件A=“偶数点”,包含3个样本点,所以m=3。P(A)=

例3:扔掷两枚均匀的硬币,求出现“两枚都朝上”的概率以及“一枚朝上,一枚朝下”的概率[这两枚硬币是先后扔掷的]

样本空间S包括四个样本点,E1:两枚都朝上;E2:两枚都朝下;E3:第一枚朝上,第二枚朝下;E4:第一枚朝下,第二枚朝上。n=4。

随机事件A“两枚都朝上”,包含1个样本点。m=1。概率P(A)=m1=。 n4

随机事件B“一枚朝上,一枚朝下”包括2个样本点。概率P(B)=

二、正态分布

1、何为正态分布? m21=。 n42

在自然、经济、社会等领域内,如人的身高、体重、一片森林的高度、学生成绩、人的智商等、甚至公共入口门槛的磨损、海浪的高度等等随机变量,都服从一类确定的分布规律,这类分布规律叫做正态分布。

中心极限定理:

多个相互独立的随机变量相加(一般要求随机变量的个数大于30),不管它们是离散的的还是连续的或者是任何类型的,也不管它们原有的分布如何,只要它们大小相差并不悬殊,相加所得的随机变量必然接近正态分布。

大数定理:

研究在什么条件下,随机事件可以转化为不可能事件或必然事件,即有关阐明大量随机现象平均结果的稳定性的一系列定理。

贝努里大数定理:

在相同条件下,进行大量观察时,随机事件的频率有接近于它概率的趋势。 切贝谢夫大数定理:

当样本容量n足够大时,均值抽样分布的平均值接近于总体的均值。

2、正态曲线的特征

第一,曲线是单峰,且只有一个最高点。随着x向左、向右远离时,曲线不断地降低。“中间高 ,两边低”与一个古钟相似。第二,曲线在高峰处有一个对称轴,在轴的左右两边是对称的。对称轴是x=μ(μ表示变量的平均值,注意它是总体的平均值)。第三,曲线无论向左或向右延伸,都越来越接近横轴,但永远不会和横轴相交,以横轴为渐近线。

由于正态分布曲线是单峰对称的,因此,具有这种分布的变量,它的众值、中位值和均值是重叠的。

根据实践的经验和理论的分析,正态分布曲线可以用如下的数学公式表示出来:



xx22

3、正态曲线下的面积

直方图的面积为1,所以,正态曲线下的面积也可以视作1。

每个小直方形的面积=x*xi(x概率密度;xi组距)

在均值μ两旁各是一个标准差σ的范围内所包括的面积,为0.6827,换言之,总体中随机变量取值在区间[μ-σ,μ+σ]之间的概率为0.6827。依次类推,变量取值在区间[μ-2σ,μ+2σ]的概率为0.9545,在区间[μ-3σ,μ+3σ]之间的概率为0.9973。根据正态分布图形的对称性,如果用σ作为变量取值的组距,则围绕着μ,各σ所对应的概率将如课本144页图5-9所示。通过这个图形,我们得知,变量取值在[μ,μ+σ]或[μ-σ,μ]之间时其概率为34.13%。其余依次类推,在[μ-2σ,μ-σ]或[μ+σ,μ+2σ]之间的概率为13.6%。

4、标准正态分布

X的标准分或标准值:Zx

据Z值所得的分布称为标准正态分布。该正态分布的表达式为:

Z

2

Z 参数μ=0,σ=1

第五节 抽样分布

一、二项抽样分布

1、二点分布

所谓二点,是指变量的取值只有两类:是与否;男与女;生存与死亡;成功与失败;未婚与已婚等等,即通常我们说的二分变量。

扔掷一枚硬币的结果视作变量ε,则它有两个取值0,1,0表示反面朝上,1表示正面朝上。正面朝上的概率为p,反面朝上的概率为q,p+q=1。

随机变量ε有且只有两个取值0和1,取值为1的概率P(ε=1)=p,取值为0的概率P(ε=0)=q。二者之和为1。p+q=1。

2、二项分布

n次试验是独立的,指的是试验重复进行n次,而各次试验互不影响,即各次试验结果出现的概率都不依赖于其他次试验的结果。

一枚硬币连续扔掷4次,出现正面次数的概率分布? 2

变量ε=“四次独立试验中正面出现的次数”

变量ε包括5个取值:ε=0,ε=1,ε=2,ε=3,ε=4

00411412242P0C4pq P1C4pq P2C4pq

33434444P3C4pq P4C4pq

二项分布:如果在相同条件下进行n次相互独立的试验,每次试验只有两种结果,事件A出现,事件A不出现。事件A出现的概率PAp,事件A不出现的概率PA1pq。那么,n次试验中事件A出现次数ε的概率分布可以写作PxCnpxqnx(x=0,1,2,3„n)。二项分布可以简写作B(n, p)。

二项分布的随机变量可以看作许多相互独立的二点分布的随机变量之和,因此,随着n的不断增大,二项分布是趋近于正态分布的。

二、均值抽样分布

均值抽样分布表示的是,由同一总体中反复不断抽取不同样本时,各个可能出现的样本均值的概率分布情况。

1、实例[课本193-195页]

2、任意总体、大样本的均值抽样分布

中心极限定理:由于多个相互独立的随机变量相加(一般要求随机变量的个数大于30),不管它们是离散的,还是连续的或者是任何类型的,也不管它们原有的分布如何,只要它们大小相差并不悬殊,相加所得的随机变量必然接近正态分布。

只要样本容量足够大,即在大样本情况下,均值的抽样分布必将接近正态分布。对此,我们可以表述为,如果从均值为μ,方差为σ2x的总体中重复抽取大小为n的随机样本,那么当n逐渐增大时,样本均值X的抽样分布就接近于均值

2

为μ,方差为的正态分布。 n

xn ZX

n

当样本容量不断增大时,X

n接近标准正态分布。而且,在样本容量相当大的条件下,我们可以用样本标准差代替总体标准差,所以,X同样接近标S

n

准正态分布。

第七章 参数估计

教学目的和要求:通过本章的学习使学生能够依据样本的统计值对总体参数值进行点估计和区间估计,并可以根据可信度的大小来推测样本容量的大小。 教学重点和难点: 重点是区间估计,难点是大样本二总体均值差和二总体成数差的区间估计。

教学方法:课堂讲授,辅之以实例讲解

教学内容:

统计推论的两大类:

1、参数估计:根据一个随机样本的统计值来估计总体的参数值是多少。

2、假设检验:首先对总体的情况进行假设,然后以一个随机样本的统计值来检验这个假设是否正确,即通过样本对总体的某种假设进行检验。

参数估计,用通俗的话来讲,就是根据抽样结果来合理地、科学地猜测总体的参数大概是多少?或者在什么区间范围内?点估计是根据样本,科学地估测总体的参数大概是多少?而区间估计则是根据样本,科学地估测总体的参数在什么区间范围内?

一、相关概念

1、总体。就是研究对象的全体。

一类是研究总体,即理论上明确界定的个体的集合体。

一类是调查总体,是指研究者实际抽取样本时的个体集合体,它往往是对研究总体的进一步界定。

2、参数值和统计值。

参数值又称总体值,它是指总体中的数值。

统计值则是从样本中计算出来的数值。统计值与参数值往往是一一对应的。参数值——希腊字母表示;统计值——罗马字母表示。

μ——x;σ——S;p——P

重要区别:参数值是确定不变的、唯一的,并且通常是未知的;而统计值则是不断变化的,即对于同一个总体来说,不同样本所得的统计值是有差别的,同时,对于一个特定的样本来说,统计值是已知的,或者说是可以通过计算得到的。

二、点估计

所谓点估计,就是以一个适当的样本统计值来估计总体的未知参数值。 例子:n=300, P=60%——p=60%

x=1600元——μ=1600元

一般来说,如果样本越大,且抽样方法越严谨,则这种估计方法越可信。同时,不同的统计值在估计其总体值时所犯的偏差也不同,例如,均值和频率的准确程度高于标准差。尽管点估计的方法十分简单,但是,却无法了解到这种估计和推测的可信程度如何,因此,在社会学研究中,通常多采用区间估计。其实关于点估计的好坏,也有一定的评判标准,即无偏性、有效性和一致性。

三、区间估计

1、置信度和置信区间

置信度指的是总体参数值落在样本统计值某一区间内的概率,或者说,是总体参数值落在样本统计值某一区间中的把握性程度。

置信区间则是上面介绍置信度时所说的“某一区间”,它是指在一定的置信度下,样本统计值与总体参数值之间的误差范围,反映了估计的准确性或精确性。

ˆ-ε≤Q≤Qˆ+ε)=1-α。 P(Q

1-α——置信度,用置信区间估计的可靠性。α可以称作显著性水平,它与置信度正好相反,表示用置信区间估计的不可靠程度。

关于置信度,一般是根据实际情况预先给定的。常用的置信度标准有:1-α=0.90,0.95或0.99。在样本容量一定的情况下,置信区间和置信度是相互制约的。置信度越大,则相应的置信区间也越宽,即估计的可靠性越大,则估计得越不精确。

2.大样本总体均值的区间估计

例子:为了对某地区家庭用于请客送礼的支出进行研究,作了一次抽样调查。其样本容量n=225户,平均每月用于请客送礼的支出为X=43元,标准差为S=10.5元,试求该地区家庭平均每月用于请客送礼支出的区间估计(置信度取95%)。

当置信度为95%时,总体均值μ的置信区间为[X1.96

其中X是样本均值,S是样本标准差,n则是样本容量 Sn,X1.96Sn]。

置信区间的计算公式统一为[XZ

2S,XZ

2Sn]

3.大样本总体成数的区间估计

由于样本成数可以看作是n个满足二点分布的随机变量的均值。因此,根据中心极限定理,在大样本情况下(要求:np≥5,n(1-p)≥5,其中n为样本容量,p为总体成数,在总体成数未知的情况下,可以用样本成数代替),样本成数的分布可近似看作正态分布。该正态分布的均值为p,即总体成数,而方差为

p1ppqp1p,其中q1pn,在总体n,所以方差可以写为n,则标准差即为

成数未知的情况下,我们可以利用样本成数P代替。

设根据某城镇100户的随机抽查,得知其中有20.0%的家庭不和,即P=20.0%=0.20。求该城镇不和家庭所占成数p的置信区间(要求置信度为95%)。

PZ

2P1P≤p≤PZn2P1P n其中P是一次抽样中所获得的样本成数。α是显著度水平。n是样本容量,Z是标准正态分布中双侧区间的分位点。

2

当样本相当大时,可以用样本成数P代替总体成数p,以计算抽样分布标准

差。

P另外也可以以=0.50代入抽样分布标准差的计算公式,以此可以获得最大

的置信区间。

4、大样本二总体均值差的区间估计

2,11假设有两个总体,第一个总体的均值和方差分别为:

2,22第二个总体的均值和方差分别为:

现从两总体中独立地各抽取一个随机样本,经过调查发现:

2X1,S1来自第一总体的样本均值和方差为:

2X2,S2来自第二总体的样本均值和方差为:。

二总体均值差的点估计值——X1X2 二总体均值差的区间估计:X1X2ZX1X2,X1X2ZX1X2 22

1

2

5、大样本二总体成数差的区间估计

假设有两个总体,第一个总体的成数为p1,第二个总体的成数为p2

现从两个总体中独立的各抽取一个随机样本:

第一个总体的样本容量为n1,样本成数为P1

第二个总体的样本容量为n2,样本成数为P2

由此得到的样本成数差P1-P2即可以作为总体成数差p1-p2的点估计值。 P1-P2 Zp1p2,P1-P2 Zp1p2

22

P1P2

四、样本容量的计算

决定样本大小的因素:

抽样误差;研究代价;总体内部的差异程度;日后的资料分析计划

决定样本大小的一般准则:

根据所能付出的研究代价的最大限度抽取最大的样本

1、根据均值的区间估计公式计算样本容量

假设,我们的研究目的是要了解总体中的均值μ,从一个样本容量为n的随 机样本中计算出来的样本均值记作X,则μ-X,就是所愿意容忍的错误,即允许的误差范围。如用绝对值表示,就是X 在估计总体的均值时,置信区间应该是:XZ

2nXZ

2n

Z

2nXZ

2n→Δ=Z2Z2→nn 

221.96如果要求的置信度为95%,则该公式可以进一步转化为n 

Δ可以根据研究的需要来决定,在总体标准差σ未知的情况下,可以选用样本标准差S。

同理以此类推其他可信度下,样本大小公式

2、根据总体成数区间估计计算样本容量。

Z2p1p2n2,其中p表示总体成数,在总体成数未知的情况下,也可以用以前调查获得的样本成数来代替。而Δ表示所允许的误差范围,即总体成数与样本成数之间的差异。

以上介绍的公式只能作为确定样本容量的参考值。在实际进行抽样调查时,样本的大小还要考虑诸如研究代际,日后资料分析计划等多项指标。

第八章 假设检验的基本概念

教学目的和要求:通过本章的学习使学生掌握假设检验的基本概念及原理,熟悉假设检验的步骤和两类错误。

教学重点和难点: 重点是架设检验的基本原理——小概率原理,难点是假设检验中的两类错误。

教学方法:课堂讲授,结合实例讲解

教学内容:

第一节 统计假设

一、什么是统计假设

这种和抽样手段联系在一起,并且依靠抽样数据进行验证的经验层次的假设,就是统计假设。也就是说,如果不采用抽样方法的话,也就不存在统计假设了。今后我们讨论的假设,都是经验层次的假设,而且也都是需要借助抽样调查予以证实的,因此都是统计假设,或简称假设。

所谓假设检验,就是先成立一个有关总体情况的假设,继而抽取一个随机样本,以样本的统计值来验证该假设是否成立。

二、虚无假设与研究假设

假设一般包括两部分:虚无假设H0和研究假设H1。现在,我们分别认识一下这两种假设。

虚无假设H0:又称原假设或解消假设,一般用H0表示。它常常是根据已有的资料,或根据周密考虑后确定的。

研究假设H1:又称为备择假设。当经过抽样调查,有充分根据否定原有假设H0时,就产生了需要接受的研究假设,它是虚无假设的逻辑对立面。

一个完整的假设应该包括两部分:虚无假设H0和研究假设H1。至于它们的具体写法,根据实际的研究内容来确定。

三、假设检验的基本原理

小概率原理:一是可以认为小概率事件在一次观察中是不可能出现的。二是如果在一次观察中出现了小概率事件,那么,合理的想法,是否定原有事件是小概率事件的说法。

经过抽样获得一组数据,即一个来自总体的随机样本,如果根据样本计算的某个统计量(或几个统计量,如均值、百分数等)表明在虚无假设H0成立的条件下几乎是不可能发生的,就拒绝或否定这个虚无假设,并继而接受它的对立面——研究假设。反之,如果在虚无假设H0成立的条件下,根据样本所计算的某个统计量,发生的可能性不是很小的话,那么就接受虚无假设。

第二节 假设检验中的名词

一、

假设检验中的假定

假定是被确认和接受的事实,是进行检验的前提或要求。在今后运用各种统计技术时,一定不要忘记所用方法的假定,否则会导致错误的结论。 二、假设检验中的统计量

选取合适的统计量是十分重要的。

所谓统计量,就是从样本中计算出来的某个数值。因此,对于某个样本来说,统计量的值应该是确定的。而作为假设检验中的统计量,除了满足这个条件外,还必须保证,在虚无假设H0成立的条件下,统计量的值也应该是确定的。其次,所选用统计量的抽样分布情况也应该是已知的,其值是有表可查的,一般选择Z分布(即标准正态分布)、t分布、F分布或x2分布的统计量。 三、显著度α(又称显著性水平)

它一般是指在虚无假设成立的条件下,统计检验中所规定的小概率的标准。即规定小概率的数量界线。在进行研究时,通常是先决定显著度的大小。常用的标准有α=0.10;α=0.05或α=0.01。 四、接受域和否定域

否定域可以表述为抽样分布内一端或两端的小区域,如果样本的统计值在此区域范围内则否定虚无假设。

显著度——否定域在整个抽样分布中所占的比例(即样本统计值落在否定域内的机会)。

五、双边检验和单边检验

1、双边检验:否定域选择了统计量抽样分布的两侧。

P(Z>Z)=α H0:μ=μ0;H1:μ≠μ0。

2

2、单边检验:否定域选择了统计量分布的一侧。根据否定域选择在左侧还

是右侧,单边检验又可以分作右侧单边检验和左侧单边检验。

右侧单边检验:P(Z>Zα)=α H0:μ=μ0;H1:μ>μ

左侧单边检验:P(Z

第三节 假设检验的步骤和两类错误

一、假设检验的步骤

1、根据实际问题做出假设。假设包括原假设和备择假设

2、根据样本构成合适的、能反映原假设的统计量,并在原假设成立的条件下确定统计量的分布。

3、根据问题的需要,确定显著度的大小,并求出否定域和临界值

4、根据以上三步骤建立以来的具体检验标准,用样本统计量的观测值急性判断,若样本统计量的值落入否定域,则拒绝原假设,接受备择假设,否则,接受原假设。 二、两类错误

1、弃真的错误

真实状况确实如原假设H0所示,但被我们拒绝了,因此,犯了弃真的错误。在统计中称第一类错误或甲种误差。犯第一类错误的大小就是显著度α。

2、纳伪的错误

真实状况并非如原假设所示的那样,但我们接受了原假设,因而犯了纳伪的错误。它是在接受原假设时出现的错误。称作第二类错误或乙种误差。犯纳伪错误的概率以β表示。 三、假设检验的类型

1、参数检验法

要求总体具备某些条件,如正态分布或标准差相等,还要求变量为定距以上层次的变量。假如总体中的确具备这些条件,则参数检验法可以相当准确地判定原假设的正误。一般来说,统计法所要求的条件越多,其检定力通常越强。

2、非参数检验法

又称分布自由检验法。其特点是不要求总体数值具备特殊的条件。非参数检验法对变量的测量层次也没有任何要求。因此,可以用于定类或定序变量。但是,由于非参数检验法不理会总体的情况,在推论时较为困难,准确性因此会受影响。所以,在总体确实具备某些条件时,参数检验法比非参数检验法更好。

第九章 单总体假设检验

教学目的和要求:通过本章的学习使学生对假设检验的具体知识有更深的了解和认识,并能够应用所学知识对单样本总体的均值及百分率进行假设检验。 教学重点和难点: 重点是大样本总体均值假设检验和总体成数假设检验,难点是小样本总体均值假设检验。 教学方法:课堂讲授,结合实例讲解 教学内容:

第一节 大样本假设检验

一、大样本总体均值检验

根据以往资料,某学校应届毕业生的平均初始薪金为1500元,但今年根据100名应届毕业生的随机抽样调查发现,这100名学生的平均初始薪金为1600元,标准差为90元,问能否认为今年该学校应届毕业生的初始薪金比以往有所提高?

原假设H0:μ=1500元,研究假设H1:μ>1500元

Z

X

n

X16001500

11.1>Zα=1.65 S90n

∴否定原假设H0,接受研究假设H1

大样本总体均值假设检定的基本逻辑:先设立H0,进而以此为基础来确定抽样分布。如果我们所抽取的一个随机样本中的统计值Z

X

n

,在以H0为

基础的抽样分布中出现的机会是很小的,那就理应否定原假设(H0),改而接受研究假设H1。

H0:μ=μ0;H1:μ≠μH0:μ=μ0;H1:μ>μH0:μ=μ0;H1:μ

0 0

Z

X

n

σ≈S

ZZ/ZZ/Z>Z/ Z

2

2

二、大样本总体百分比检验

例如,根据以往资料,某地区工人中有35%的人满意其工作环境。现从全区中随机抽取了150名工人来调查,发现满意其工作环境的工人占样本总数的45%。问,该地区工人对工作环境的满意程度是否有所提高。

虚无假设H0为:p=0.35,而研究假设H1为:p>0.35。

0.45-0.35Pp

2.57>>Zα=1.65 Z==

0.35*1-0.35p1p150n∴否定原假设H0,接受研究假设H1

大样本总体成数假设检定的基本逻辑:先设立H0,进而以此为基础来确定抽样分布。如果我们所抽取的一个随机样本中的统计值Z=

Ppp1pn

,在以H0

为基础的抽样分布中出现的机会是很小的,那就理应否定原假设(H0),改而接受研究假设H1。

H0:p=p0;H1:p≠p0 H0:p=p0;H1:p>p0 H0:p=p0;H1:p

PpZ=

p1pn

ZZ/ZZ/Z>Z/ Z

2

2

第二节 小样本假设检验

一、总体呈正态分布,总体方差σ2已知

小样本均值的抽样分布同样会趋近于正态分布,该正态分布的均值即为总体

2

均值μ,方差则为n,σ2为总体方差

Z

X

n

H0:μ=μ0;H1:μ≠μH0:μ=μ0;H1:μ>μH0:μ=μ0;H1:μ

0 0

Z

X

n

ZZ/ZZ/Z>Z/ Z

2

2

二、总体呈正态分布,总体方差σ2未知

X

服从自由度为n-1的t分布 Sn

自由度越小(即样本越小),则t分布越扁平,自由度越大,(即样本越大),则t分布越高耸且越接近正态分布。

t=

X

Sn

H0:μ=μ0;H1:μ≠μH0:μ=μ0;H1:μ>μH0:μ=μ0;H1:μ

t=

0 0

X

Sn

tt/tt/t>t/ t

2

2

第十章 二总体假设检验

教学目的和要求:通过本章的学习使学生能够运用所学知识对大样本二总体均值差和成数差进行假设检验。

教学重点和难点: 重点是大样本二总体均值差假设检验和二总体成数差假设检验。

教学方法:课堂讲授,结合实例讲解 教学内容:

第一节 相关概念

一是独立样本。即从两个总体中,分别独立地各抽取一个随机样本进行比较和研究。简单来说,独立样本是指两个样本之间没有任何关联。

二是配对样本。配对样本与独立样本相反,它指的是两个具有相互关联的样本。第一种配对样本是从一个总体中随机抽取一个样本,但样本中每个个体都要先后观测两次。因此,这一个样本可以看作两个相互关联的样本。第二种配对样本则是的确存在两个不同的样本,但这两个样本之间存在某些关联。

第二节 大样本二总体假设检验

一、二总体均值差假设检验

总体A:μA、σ总体B:μB,σ

2 A

样本A:nA、XA 、SA2

样本B:nB、XB、SB2

2 B

nA≥50,nB≥50

H0:AB0

H1:AB0,AB

0,A

B

Z=

X

A

XB

2

A2B

nAnB

2

2

双边检验:Z〉Z,或Z

左侧单边检验,Z

总体A:p样本A:P

A A,nA 总体B:pP

B 样本B:B,nB H0:pApB0。

H1:双边检验pApB0;右侧单边检验pApB

0;p)ApB

0。

Z

pAPA,pBPB。

显著度为α

双边检验:Z〉Z,或Z

2

2

右侧单边检验:Z〉Z时,否定原假设H0。 左侧单边检验:Z

左侧单边检验

第十一章 假设检验:两个变量的相关

教学目的和要求:通过本章的学习使学生能够运用所学知识对两个变量之间的相关关系进行假设检验。

教学重点和难点:重点是列联表的检验和Gamma系数的检验,难点是单因方差分析与F检验。

教学方法:课堂讲授,结合实例讲解 教学内容:

第一节 列联表的检验——x2检验

x2检验是一种非参数检验法。

要求:随机抽取的样本 两个变量都具有定类性质 H0:变量x与变量y无关。 H1:变量x与变量y有关。

x

2

fe2

e

f —列联表中每个方格内的实际次数,即条件次数。

e —在原假设H0成立的条件下每个方格内的次数,即期望次数。具体指的是,如果在总体中两个变量没有关系的话,列联表内每个方格所应有的次数。每一方格内的期望次数其实就是其所对应的两个边缘次数除以样本容量。 自由度 K=(r-1)(c-1) r与c分别表示列联表的行数和列数

2越大,H0正确的可能性越小

2的抽样分布取决于自由度,在决定显著度后,就要视乎自由度的大小,通过

查表可得到不同自由度下的2值。

2如果显著度为α,则否定域的临界值可以写作x。 2若2〉x,则否定原假设H0。

倘若,一个是定类变项,另一个是定序变项,通常也用2检定。

第二节 Gamma及其他等级相关的检验

Z检定法

H0:γ=0(γ表示总体中的Gamma系数,所以原假设意味着总体中两个变量之间是无关的)

双边检验H1:γ≠0(即总体中两个变量之间是有关的)。

右侧单边检验H1:γ>0(γ系数大于0说明两个变量之间呈正相关) 左侧单边检验H1:γ<0(即在总体中,两个变量不仅相关,而且呈负相关)。

Z=

GG2

nsnd

n

G=随机样本Gamma系数值 n=样本大小

Ns=同序对数 Nd=异序对数

双边检验:Z>Z或Z

2

2

右侧单边检验:Z>Zα时,否定原假设

左侧单边检验,则否定域的临界值写作-Zα,当Z

第三节 单因方差分析与F检验

F检验是参数检验法的一种,除了要求样本为随机样本,一个变量为定距变量外,它还要求各组的总体均为正态分布,且具有相等的方差。

E2F=

1E2

nk k1

K1=k-1 K2=n-k

H0:各组总体中的均值相等 H1:各组总体中的均值不相等

E2nkF= 21Ek1

K1=k-1 K2=n-k E2样本的相关比率 n 样本大小 k 分组数目 若F〉Fα(K1,K2),则否定原假设H0。

F检定基本逻辑:倘若我们在总体中以X解释或预测Y,理应消减若干误差,可用相关比率(E2)来表示,至于剩余的误差,就是1-E2,F比率要计算的,就是这两类误差的比率。

总体的消减误差总体的E2

即F 

总体的剩余误差总体的(1-E2)

E2nkF 2(1-E)k1

不用E值时的F检定公式: F

BSSnk

() WSSk1

df k1 df2n1kBSS组际平方和,代表被消减的方差 WSS组内平方和,代表剩余的方差 TSS全部平方和,即原有全部方差

TSS=BSS+WSS

=(Y)

BSS=ni(Yi) WSS=(YI)

其中,Y是每个个案的数值,是全部个案的均值,ni是每组的个案数目,

222

I是每组的均值

方差分析的基本道理是将全部方差分解为两部分:消减方差和剩余方差,然后从相互比较中推论X与Y在总体中是否相关。F比率就是消减方差与剩余方差的对比,F值越大,就表示X与Y越可能相关。

第四节 积距相关与回归系数的检定

一、

F检定

r2(n2)1、检定公式:F df11 df2 2n

1r2

n 样本大小 r 样本的积距相关系数值 2、应用条件:x与y成直线关系

由于r2具有消减误差比例的含义,则1-r2就是剩余误差。然而要估计总体的

《社会统计学》教案

教学目的和要求:通过本课程的学习,使学生熟悉常用的统计方法,并且学会如何将统计分析知识应用于社会调查研究之中,掌握统计方法的灵活运用。本课程偏重统计方法的实际应用,而非其数理基础。在教学过程中,注重对于不同统计分析方法适用条件的说明,统计公式的讲解,以及对于统计值意义的说明。 教学重点和难点:本课程的教学重点是不同统计分析方法所适用的条件以及统计值意义的解释。难点是统计公式的讲解以及不同统计分析方法在实际社会调查研究中的应用。

教法特点说明:课堂讲授为主,注重对实例的讲解。

教材和参考书目:

1、卢淑华著:《社会统计学(第三版)》,北京大学出版社,2007年。

2、李沛良著:《社会研究的统计应用》,社会科学文献出版社,2002年。

3、柯惠新等著:《调查研究中的统计分析法》,北京广播学院出版社,1992年。

4、风笑天著:《现代社会调查方法》,华中科技大学出版社,2001年。

5、袁方主编:《社会研究方法教程》,北京大学出版社,1997年。

第一章 统计学的简史

教学目的和要求:通过本章的学习使学生了解统计学的产生、发展历程,对概率论、描述统计、推论统计有初步的认识。

教学重点和难点: 重点是概率论的兴起,难点是大数法则、正态分布。 教学方法:课堂讲授

教学内容:

一、统计学的起源

统计技术:古埃及、古中国(大禹治水)

统计学:17世纪中叶 Status(拉丁词汇,国家、状态)——Statistics 研究国家的宏观状态①国势学 ②政治算术

二、国势学(17世纪的德国)

德国大学学派:H·Coring 用文字记录一个国家的状况和制度

G·Achenwall 第一个定义——把国家的显著事项全部记录

下来的学科

三、政治算术(17世纪的英国)

英国的经验主义者:用数量或数字的方法说明国家的特征

J·Graunt 《关于伦敦死亡表的观察》用数量分析社

会、政治问题

William Petty 《政治算术》

四、概率论(数理特征更加明显)

1.J Bernoulli(贝努里) 瑞士 大数法则 借助大数法则可以从社会现象复杂不定的偶然性中寻找规律,它说明了社会现象的稳定性

2.Gauss(高斯) 德国 正态分布(中心极限定理的基础)

五、数理统计学

Adolphe Quetelet(阿道夫·凯特勒)法籍比利时人

数理统计学派的创始人 “经验社会学之父” 《社会物理学》

“平均人”

六、 描述统计

高尔顿(F Galton) 回归现象 根据对1078对父、子身高的散布图发现,

虽然身材高的父母比身材矮的父母倾向于有高的孩子。 但平均而言,身材高大的其子要矮些,而身材矮小的其 子要高些。或者说,无论高个子或矮个子的后代,都有 向均值方向拉回的倾向。这种遗传上身高趋于一般,“退 化到平庸”的现象,即是回归现象。

卡·皮尔逊(K Pearson)分布、相关、频数、皮尔逊系数

七、推论统计

部分→整体 T检验、F检验

第二章 社会调查研究与统计分析

教学目的和要求:通过本章的学习使学生了解社会调查研究的历程,明确统计分析在社会调查研究中所处的位置和作用。熟悉统计分析的具体内容,牢记统计分析方法的选择标准,能够熟练地判断应用。

教学重点和难点: 重点是社会调查研究的历程,难点是统计分析方法的选择标准,尤其是变量的测量层次。

教学方法:课堂讲授,结合实例讲解

教学内容:

第一节 社会调查研究历程

一、概念

二、社会调查研究的历程

1.确定课题

重要性、可行性(主观限制、客观限制)

课题的选择应具有一定的理论意义或应用价值,应当是社会迫切解决理论问题或实际问题就要有一定的迫切性,另外还要注意课题的可行性,以及研究者的主客观条件是否具备等。

2.初步探索

通过查阅文献和向有经验的,有知识的人请教或者自己进行探索性调查,搜集获取第一手资料。

3.建立假设

差异式(如果A越高,则B也 (如果A越高,则B也越高)

函数式(A不同则B不同)

4.

理论解释和澄清概念

概念的操作化:把那些通常只存在于我们头脑中的抽象概念,转化为我们

看得见、摸得着,可以观察的具体指标

社会地位——个人在社会中的位置——收入、职业、受教育程度

5.设计问卷

封闭式问题、开放式问题

6.试填问卷

7.调查实施

8.资料整理:问卷的核对、登录

9.统计分析与命题检验

二、社会学研究的两个层次

1.抽象层 :包括概念 命题 理论

2.经验层:包括观察 量度 测定 分析等

两者的关系紧密相联系遵循着:理论来源于实践,而又必须受到实践的检验

第二节 社会调查资料的特点和统计分析的内容

一、社会调查资料的特点

1.随机性

大部分社会现象都具有非确定性,即在某种条件下可能发生也可能不发生。

2.统计规律性

在表面上是偶然性在起作用的地方,这种偶然性始终是受内部的隐蔽着的规

律支配的,而问题就在于发现这些规律。

二、统计分析的内容

描述性统计:主要介绍资料的整理,分类和简化或特征研究

推论性统计:主要介绍参数估计、假设检验、回归、列联、方差、等级相关

等统计技术。

第三节 怎样选用统计分析方法

一、调查的方式

全面调查——描述性统计

抽样调查——推论性统计

二、变量因素

1. 变量个数 单变量 双变量 多变量

2. 变量层次

定类:最低的变量层次,取值只有类别属性之分,而无大小程度之分。

数学运算符表示(=、≠)

定序:取值除了有类别属性之外,还有登记次序的差别。数学运算符表

示(=、≠、>、

定距:取值除了有类别、次序属性之外,取值之间的距离可用标准化的。

距离去测量。数学运算符表示(=、≠、>、

定比:除具有以上三种属性外,还可构成一个有意义的比率。

数学运算符表示(=、≠、>、

只满足定距而不满足定比的变量很少,因而研究中不再区分定比

定距,而合为一类,称作定距变量)

①高层次变量具有低层次变量的特性,反之不成立

②一个变量他的层次并不是唯一的,

③变量的层次与社会实际衡量之间存在着差距或不一致

④变量类型的划分也不是唯一的,可根据自己领域的需要来划分。

第三章 单变量描述性统计分析

教学目的和要求:通过本章的学习使学生能够根据变量的测量层次,选择适当的表格、图形对数据资料进行初步简化,熟练地应用集中趋势和离散趋势测量法,对调查资料进行简化分析。

教学重点和难点: 重点是集中趋势测量法、离散趋势测量法,难点是不同类型的统计图,尤其是直方图。

教学方法:课堂讲授,辅之以实例讲解

教学内容:

第一节 最基本的单变量描述统计技术

一、定类变量

1、频次分布

文字法、集合法、统计表法、统计图法

2、频率分布

文字法、集合法、统计表法、统计图法

3、统计图——条形图、圆瓣图

二、定序变量

累加频次、累加频率

三、定距变量

1、连续型变量的分组问题

组数;等距分组or非等距分组;决定分点的精度(组限、组距、组中点);

2、统计图

矩形图or直方图;折线图

3、曲线类型

四、统计表的制作

1、统计表必须具备的内容

表号、表头、标识行、主体行、表尾

2、制表过程

收集数据;找出极差R=最大值L-最小值S;确定组数;计算组距;实际

分组;

取中心值;统计频次,制表

第二节 集中趋势测量法

一、定类变量——众值

Mo——出现次数最多的值

某班男生15人,女生30人。Mo=女生

二、定序变量——中位值

Md——在一个序列的中央位置之值。高于此值的有50%的个案,低于此值的也有50%的个案。

(一)未分组数据

1、原始资料

首先要对个案按照从低到高的顺序排列;其次计算中位值所在的位置Md位置==n+1/2;最后查找对应的数值

2、频次分布

(频次分布表必须是按照由低到高的顺序排列的,而且列出了向上累加频次)

首先计算中位值所在的位置Md位置==n+1/2;其次按照累加频次找出中位值。

(二)分组数据

Md位置==n/2 ncfMd=L+ w f

L=中位值组之真实下限 f=中位值组之次数 w=中位值组之组距

cf↑=低于中位值组真实下限之累加次数 n=全部个案数目

三、定距变量——均值

X——将变量的各个数值相加起来,求取一个平均的数值

(一)未分组数据

1、原始资料

x n是全部个案数目 nx表示各个个案数值之和

2、频次分布

Xfx x是变量的各个取值,f是每个变量值对应的次数,n个案数n

(二)分组数据

fxXnm xm是组中心值 xmUL 2

小结:①三值设计的共同目的,都是希望通过一个数值来描述整体特征,以便简化资料。他们都反映了变量的集中趋势,一般说: 众值:适用于定类、定序和定距变量; 中位值:适用于定序和定距变量; 均值:适用于定距变量。它们三者的代表性决定了它们具有估计和预测的作用。 ②众值仅使用了资料中最大频次这一信息,因而资料使用不完全。中位值,考虑了变量的顺序和居中位置,因此和总体频次分布有关,但因为只考虑居中位置,因而其他变量值的变化很难影响中位值,它也是三个集中值中最不敏感的。均值,既考虑频次又考虑变量值的大小,因而更灵敏。它的解释力最强,具有较高的统计价值。③均值虽然灵敏,但对严重偏态的分布容易失去代表性。即存在非常极端的分布值时,代表性不足。例如,一个国家会因某些少数富翁的存在,使平均收入变得很高。且在分组资料中的极端组没有组限时,不能求出均值,只能用中位值。④偏态图形和三值的关系。对于正态分布的图形来说,三值是合一的。当图形正偏或负偏时,均值变化最快,中位值次之,众值不变。

第三节 离散趋势测量法

一、定类变量——异众比率

γ——非众值的次数与全部个案数目的比率。 公式为:nfmo n

n是全部个案数目

fmo是众值的次数

二、定序变量——极差、四分位差

(一)极差 R=最大值-最小值

(二)四分位差

1、未分组数据

(1)原始资料 Q1位置n13n1 Q3位置。 44

Q=Q3—Q1

(2)频次分布

2、分组资料

Q1位置n3n Q3位置 44

n3ncfcf13 Q1L1wQL1w333f1f3

Q=Q3—Q1

L1=Q1属组之真实下限 L3=Q3属组之真实下限 f1=Q1属组之次数 f3=Q3属组之次数 cf1↑=低于Q1属组下限之累加次数 cf3↑=低于Q3属组下限之累加次数

w1=Q1属组之组距 w3=Q3属组之组距

三、定距变量——标准差、方差

(一)标准差、方差

离均差xx→离均差之和xx→离均差绝对值之和xx→xx→S22xx

n

2/

S

频次分布

S

分组资料

S

(二)变异系数/离散系数 1、使用离散系数的原因 2、CVS

x四、小结

异众比率最适合于分析定类变项,也可分析定序、定距变项。它仅考虑频次 极差、四分位差(十分位差)最适合用来分析定序变项,也可分析定距变项。极差仅仅考虑了变量的两个极端值,而四分位差考虑了变量的次序或大小。

标准差(或方差)只能用来分析定距变项。由于它们的计算涉及每一个变量值,所以它们反映的信息在离散值中是最全面、最可靠的变异描述指标。方差还具有可加性,能够参与进一步的统计运算。不过,也正是由于标准差和方差的计算涉及每一个变量值,所以,它们也会受到极端值的影响,当数据中有较明显的极端值时不宜使用。另外,它们在计算中实际都使用了均值,因此实际上只有均值能反映集中趋势时才能使用方差和标准差来反映离散趋势。因此,实际上方差和标准差的适用范围应当是正态分布。还有一点要说明的是,比较均值,不一定要看离散趋势,但比较标准差时,一定要看均值的情况。变异系数的计算涉及均值和标准差,因此,它也只能用于分析定距变量。它实际是对标准差的修正。

离散趋势测量法和集中趋势测量法是有互补作用的。二法并用,就可以一方面知道资料的代表值,有利于估计或预测工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。

第四章 简化两个变量的分布

教学目的和要求:通过本章的学习使学生能够对相关及其性质有初步认识,学会制作与分析列联表,明确选择相关测量法的标准。

教学重点和难点: 重点是列联表、PRE意义,难点是相关关系与因果关系。 教学方法:课堂讲授,辅之以实例讲解 教学内容:

第一节 统计相关的性质

一、什么是相关?

相关,是指一个变量的值与另一个变量的值有连带性。具体来说,如果一个变量的值发生变化,另一个变量的值也有变化。 二、相关的强度和方向

1、相关强度

相关系数——表示变量间的相关程度的量的指标。

相关系数的特征:(1)不具有实际数学运算意义,只能表示相关程度更强。 (2)统计相关:相关系数是统计得来的,它只能说明两种现象间可能存在一定的关联度,不一定具有实际意义,即实际上可能并不存在,这也就是我们讲的统计相关。

(3)取值范围:[-1,1]

相关系数的正负号表明了相关的方向。其绝对值则表明了相关的程度。一般0表示无相关,1代表全相关(-1是完全负相关,1则是完全正相关)。绝对值越大,说明两变量之间的相关程度越强。 2、相关方向

正相关:一个变量的值增加时,另一个变量的值也随着增加。收入水平-消费水平

负相关:一个变量的值增大时,另一个变量的值却减小。教育水平-理想子女数目

需要大家注意的是,相关方向的分析只限于定序以上层次的变量。 三、相关关系的类型(按变量变化的表现形式)

直线相关、曲线相关

直线相关:当变量X发生变动时,变量Y的值也发生大致均等的变动。 散点图——适用于定距以上层次的变量,它是以直角坐标的横轴表示变量X的取值变化范围,纵轴表示变量Y的取值变化范围。根据每一个个案在变量X和变量Y上的值来确定坐标图中的每一个点。直线相关表现在直角坐标系中,X、Y值所对应的点分布狭长,成直线趋势。曲线相关表现在直角坐标系中,X、Y值所对应的点分布分散,呈曲线趋势。 四、因果关系

1、定义:当其中一个变量变化时(取不同的值时)会引起或导致另一个变量也随之发生变化(取值也不同),但反之不成立,当后一变量变化时,不会引起前一变量的变化。

自变量X→因变量Y

自变量——变化发生在前面,并且能引起另一变量发生变化的那个变量 因变量——变化发生在后面并且这种变化是前边变量的变化所引起的那个变量

对称关系、不对称关系 2、判断条件

相关关系可能包含着因果关系,但并非所有存在着相关关系的变量之间,都一定存在因果关系(相关的两个变量可能仅仅是共同变化),而因果关系必然是相关关系。

因果关系的判断条件:

① 变量X与变量Y之间存在着不对称的相关关系。

②变量X与变量Y在发生的顺序上有先后之别。先有自变量的变化,后有因变量的变

化。如果两个变量的变化同时发生,分不出先后,则不能成为因果关系。

③变量X与变量Y的关系不是同源于第三个变量的影响。即变量X与变量Y之间的关系不是某种虚假或表面的关系。

第二节 交互分类与百分表

一、定义

交互分类,就是同时依据两个变量的值,将所研究的个案分类。交互分类的结果通常以交互分类表(又称列联表)的形式反映出来。

列联表适用于对两个定类变量(或一个定类、一个定序变量)的分析。 边缘次数、条件次数(在自变量的每个值(条件)的情况下依变量的各个值的个案数目。) 二、列联表制作准则

1.每个表的顶端要有表号和标题。 2.绘表时所用的线条,要尽可能简洁。 3.百分号的简便处理。 4.列出边缘次数。

5.表内百分率数值的小数位要保留多少,取决于研究的需要,但前后要保持一致性。

6.如何安排交互分类的两个变量。自变量放在表的上层,将因变量放在表的左侧。表的大小=横行数目(r)*纵列数目(c)。

7.交互分类中两个变量的变量值应有所限制,不宜太多。 三、百分率的计算

一般的原则是:根据自变量的方向。

如果依变量在样本内的分布不能代表它在总体内的分布,则百分率的计算要依据依变量的方向。

第三节 简化相关与消减误差

相关测量法——以一个统计值表示变量与变量之间的关系。 一、相关测量法的选择标准

1.测量层次

定类-定类;定序-定序;定距-定距;定类-定序;定类-定距;定序-定距。 2.对称关系

3.统计值的意义,一般选用具有PRE意义的测量法。 二、消减误差比例PRE

PRE=(E1-E2)/ E1

E1——不知道X值时,预测Y值时所产生的全部误差

E2——依据X值预测Y值时所产生的全部误差 E1—E2——依据X值预测Y值时所减少的误差

PRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例越大,也就是说,X与Y的关系越强。PRE=1,X与Y是全相关;PRE=0, X与Y之间无相关。

PRE数值的意义,就是表示用一个现象(如变量X)来解释另一个现象(如变量Y)时能够减除百分之几的错误。 三、2*2表——υ(佛爱)系数和Q系数

1. υ系数(佛爱)



ad=bc时,υ=0,两个变量相互独立。a=d=0(或b=c=0),与 b*c的差异越大,就表示相关程度越强。

2.Q系数

Q

adbc

adbc

a\b\c\d中有一个为0,则Q1

1。如果a*d

第五章 相关测量法与测量层次

教学目的和要求:通过本章的学习使学生能够熟练的依据变量的测量层次,变量是否对称以及是否具有PRE性质,选用适当的相关测量法,以判断变量间的相关程度。

教学重点和难点: 重点是两个定类变量、两个定序变量以及两个定距变量相关关系的分析,难点是简单线性回归。 教学方法:课堂讲授,辅之以实例讲解。 教学内容:

第一节 两个定类变量:λ,τ

一、λ相关测量法

1、基本逻辑

不知道x值时,预测y值所产生的误差E1nmaxn*j (n为全部个案数目,maxn*j是y变量的众值次数,即最后一列中的最大值)

根据x变量预测y变量所产生的误差E2。 x=x1时,y的众值次数为maxn1j x=x2时,y的众值次数为maxn2j x=x3时,y的众值次数为maxn3j x=xc时,y的众值次数为maxncj

maxn1j+maxn2j+maxn3j+„+„+maxncj= Σmaxnij(Σmaxnij

i=1

i=1

c



c



是x变量的每个值之下y变量的众值次数之和,体现在列联表当中就是每列最高

次数之和)

E2nmaxnij

i=1

c

c

c

maxnij]maxnijmaxn*jE1E2nmaxn*j[ni=1

i=1 =λPRE==

E1nmaxn*jnmaxn*jy

用y变量预测x变量的

r

r

nmaxni*nmaxnijmaxnijmaxni*j1j1

λx=

nmaxni*nmaxni*分析对称关系的λ系数



j=1

maxnijmaxnijmaxni*maxn*j

i=1

rc

2nmaxni*maxn*j

rj1

(maxni*x变量的众值

次数,maxnij =y变量的每个值之下x变量的众值次数之和,体现在列联表中就是 每行最高次数之和。)

λ相关测量法的基本逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。

2、取值范围[0,1]

x与y无关时,边缘频率分布等于条件频率分布 即

n11n21n31

n1*n2*n3*

c

n*1n12n22n32

,n1*n2*n3*n

n*2

n

maxnijmaxn*j λ=0 ∴ i1y

x与y全相关时,各列及各行都只有一个不为0的频次值

∴n= maxnij,λy=1。在0到1之间,λy越大表示两个变量越相关。

i1c

3、使用条件

如果全部众值集中在条件次数表的同一行或同一列中,则λ系数等于0,此时其敏感性可能存在问题。

二、τ相关测量法

1、基本逻辑:不再以众值作为预测的准则,而是充分考虑边缘分布、条件分布的情况进行预测。

基本公式:E1

(nFy)Fy

n

E2

(Fxf)f

Fx

τ=

E1E2

E1

其中 n=样本容量 f=某条件次数

Fy=Y变项的某个边缘次数 Fx=X变项的某个边缘次数 2、取值范围:[0,1] x与y无关时,τ=0;

当x与y全相关时,各列及各行都只有一个不为0的频次值,由此推导得出τ=1。

3、使用条件:τ系数适用于对两个定类变量不对称关系的测量,它同样具有消减误差比例的含义。在各变量值比例失调的情况下慎用。 三、小结与讨论

λ系数,τ系数,均以消减误差比例为基础,而且在计算过程中依据的都是列联表形式。

列联表中各列的众值处于同一行时,λ系数永远为0,无法准确说明两变量之间的相关关系。此时需要选用τ系数。但在各变量值比例失调的情况下慎用τ系数。 几率比

n11n21n31

n1*n2*n3*

n*1n12n22n32

,n1*n2*n3*n

n*2

,此时,n

第二节 两个定序变量

等级相关法:目的在于分析两列等级的关系,即研究变量之间的等级是否存在着联系。

一、斯皮尔曼等级相关系数rs

1.基本逻辑

丈夫的家庭地位为变量x,妻子的家庭地位为变量y 同样分为五类:1.很低;2.较低;3.一般;4.较高;5.很高。 通过调查发现,这五对夫妇的家庭社会经济地位如下:

(1,2)(2,3)(3,4)(4,5)(5,1)——完全正等级相关、完全负等级相关

设样本容量为n,变量x共有n个等级,分别为x1,x2,x3„,xn,变量y也有n个等级,分别为y1,y2,y3, „,yn。

假设每一个个案对应的x值、y值为:(x1,y1)(x2,y2)(x3,y3)„(xn,yn)。

22222

它们等级差的平方分别为:(x1- y1)=d1(x2-y2)=d2(x3-y3)=d32 „(xn-yn)2

=dn2

斯皮尔曼等级相关系数rs1

2、取值范围[-1,1]

6di2n(n1)

2

完全的正等级相关:x1= y1;x2=y2;x3=y3;„xn=yn,此时rs=1。

完全的负等级相关:(x1,y1)=(1,n);(x2,y2)=(2,n-1);(x3,y3)=(3,n-2)„(xn,yn)=(n,1)

12

di3nn21 rs=-1

列联相关与等级相关的区别:列联相关表示两个变量的类别、属性是有关的。根据其中一个变量的类别,我们可以预测另一个变量的类别。而等级相关,表示两个变量之间的等级次序是有关的。根据其中一个变量的等级可以预测另一个变量的等级。

二、Gamma等级相关

1、基本概念

设个案A变量x和y的取值分别为xi,yi,个案B对应的变量值分别为xj, yj, 如果有:

xixjxixj

,,

yiyjyiyj

或或

xixj

yiyj

则称AB为同序对。

xixj

yiyj

,则称AB为异序对

xixj,yiyjxixj,yiyjxixj,yiyj

2.基本逻辑:

则称AB为X变量同分对 则称AB为Y变量同分对 则称AB为X,Y变量同分对

设有两个定序变量x、y。个案A(xi,yi);个案B(xj,yj)

不知道x与y存在等级相关时,若同序对数为ns,异序对数为nd(注意,这里我们不考虑同分对的情况,所以ns+nd即为总对数),则误差E1

当知道x与y之间存在等级相关,则此时的误差E2Nd

nsnd

。 2

nsndnsnd

nd

nnEE2

则PRE=1=sd

sdsdnsndE1

22

Gamma相关系数就是根据任何两个个案在某变量上的等级来预测它们在另一个变量上的等级时可以减少多少误差。换言之,它是以每对个案之间的相对等级作为预测的准则。

3.取值范围 [-1,1] 4.利用列联表计算ns、nd

ns= n1*(n5+n6+n8+n9)+ n4*(n8+n9)+ n2*(n6+n9)+ n5*n9 nd= n7*(n2+n5+n3+n6)+ n4*(n2+n3)+ n8*(n3+n6)+ n5*n3

不管列联表如何变化,不管它的r是多少,c是多少,计算同序对数、异序

对数的方法都是一样的。在列联表中,同序对、异序对互为对角线,x或y的同分对,在同列或同行,x、y的同分对为自身的排列组合。

三、其他等级相关系数

1、肯氏τ系数

ansnd

nn12

b

Tx表示变量x的全部同分对数,Ty表示变量y的全部同分对数。如果出现x和y变量都同分的情况,则既要归入Tx,又要归入Ty

112tt1Ctjtj1 Tx=C2 T= ytiiitj22

nsnd m为r*c列联表中r和c值中较小者 c2nm1/m2

四、dy相关测量法及其适用条件[分析不对称关系]

dynsnd ny:只在依变量上同分的对数 nsndny

第三节 两个定距变量:简单线性回归与积矩相关

一、简单线性回归

1.概率与概率分布

确定性现象和非确定性现象(随机现象)

随机现象:非确定性、统计规律性

统计规律性是指在一定条件下,就其个别一次的结果来说都具有偶然性,但大量重复的试验或观察,则其结果无不呈现必然的规律性。概率论恰恰是要研究随机现象的这种统计规律性。概率(P)则是这种统计规律性的数量表现。

随机事件——随机现象的结果以及这些结果的集合就称作随机事件,或简称事件。

概率分布,则要说明随机现象一共有多少种结果,以及每种结果所伴随的概率是多少。

ε=“访谈三户中核心家庭数”

它对应了4个取值

X1表示访谈结果为0户核心家庭、3户非核心家庭,X2表示访谈结果为1户核心家庭、2户非核心家庭,X3表示访谈结果为2户核心家庭、1户非核心家庭,X4表示访谈结果为3户核心家庭、0户非核心家庭。

频率、概率;频率分布、概率分布——频率分布是实验值或观测值,是我们调查所获的的结果,它是可以变化的。而概率分布是理论值,是唯一的。它是事物客观属性的数量表现。简单来说,频率分布反映的样本的情况,概率分布反映的是总体的情况。频率分布又称随机变量的统计分布或经验分布,而概率分布则称作随机变量的理论分布。只有当观测次数很大时,即样本容量很大时,随机变量取值的频率接近其概率,这时随机变量的频率分布与概率分布将大致相符。

2、回归分析的对象

回归分析所研究的就是定距变量与定距变量之间的非确定关系,而且,它主要用于研究相关中的因果关系。

所谓两变量间存在相关关系,意味着它们之间存在的是一种非确定性关系。或者说,它们存在统计规律性。我们可以采用这种方法来描述相关关系:设有两个变量x和y。当x变化时会引起y相应的变化,但它们之间的变化关系是不确定的。如果当x取任一可能值xi时,y相应地服从一定的概率分布,则称随机变量y和变量x之间存在着相关。

3.回归方程与线性回归方程

散点图适用于定距以上层次的变量,它可以用于表示两变量间的相关关系。它是以直角坐标系的横轴表示变量x的取值变化范围,纵轴表示变量y的取值变化范围。根据每一个个案在变量x和变量y上的值来确定坐标图中的每一个点。散点图具有这样一个特点:即对于一个确定的xi 值,yi的值不是惟一的,yi是随机变量。

y对x的回归方程 :E(yi)=f(xi)(E(yi)表示当x=xi时,y的均值,f(xi)则是数学中函数表达式的一般写法)。

→→线性回归方程Ε(y)=α+βx(α回归常数,β回归系数);曲线回归方程

每一个真实的依变量值yi与回归线间都有一定的关系,我们可以用式子yi=α+βxi+ei来表示。其中ei是随机误差。它的值是非固定的,因此x与y之间呈现非确定的关系。

4.回归直线方程的建立

假设从总体中随机抽取一个样本,其抽样结果为:(x1,y1)(x2,y2)(x3,y3)„(xn,yn)。

y’= a+bx

(xi,yi)→→yi'= a+bxi

iyiyi' Q=iyiabxi xxyynxyxy斜率b nxxxx22222

ybx截距aybx n

回归分析是指对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型,用来近似的表示变量间平均变化关系的一种统计分析方法。

采用的方法配合其直线或曲线形态采用回归直线或回归曲线,对应的方程式称为回归直线方程或回归曲线方程。

二、积矩相关测量法

1.基本逻辑

不知道x值, yy,E1=(yy)

知道x值,预测、估计每个y值时,以线性回归方程(y'bxa)作为准则,这样预测所犯的误差是yy',因而所消减的误差是yy—(yy')=y'y——E1-E2=(yy)

'22

(x-x)(y-y)E1E2(yy)2PRE = r2E1(yy)'22

rnxyxyr系数所要表示的,就是以线性回归方程式作为预测的工具时所能减少的误差比例。

第四节 定类变量与定距变量:相关比率与非线性相关

一、基本逻辑

一个定类变量x,一个定距变量y。

不知道变量x时, E1=yy2

知道变量x与变量y有关之后, E2yyi

PRE=E222, yyyyi2yy2ny22

iiny2

y2。 ny

ni-每个自变量取值的个案数目。y表示y变量的均值,yi表示x变量每个

取值之下,y变量的均值。

E2——[0,1]

二、例题

三、两定距变量的非线性相关

相关比率还可以用来分析两个定距变量之间的非线性关系。之前,我们说过,简单线性回归与积距相关系数r都假定变量x与变量y之间具有直线的关系。如果,这项假定不符合实际情况,利用简单线性回归和积距相关系数r就会犯错误。

第五节 定类与定序变量、定序与定距变量

一、定类与定序变量

1、威尔科森的区分系数(theta系数)

基本逻辑是根据各个个案在定类变量上的类别来估计它们在定序变量上的相对等级。

取值范围:[0,1]。不具有PRE意义。

2、Lambda或tau-y系数

二、定序与定距变量

贾斯彭的多序相关系数

分析对称关系的相关系数,系数值由-1至1之间,具有消减误差比例的意义。 但是,这个系数不仅要假定两个变量具有直线的相关,而且要假定,如果定序变量改用定距层次来测量,则其数值会做正态分布。由于要符合这两项假定,因此,很多社会学研究放弃采用该相关系数,改用相关比率,即将定序变量看作定类变量。另外,也有些社会学家将定序变量看作是定距变量,因此采用积距相关系数,甚至进行线性回归分析。

第六节 双变量相关分析小结

1.Lambda系数-λ[0,1]

两个定类变量的关系或者一个定类与一个定序变量的关系。计算公式按照对称与不对称分为两种。PRE。

2.tau-y系数-τ[0,1]

两个定类变量的关系或者一个定类与一个定序变量的关系。它只适合于分析不对称关系,敏感度高于Lambda系数。PRE。

3. 斯皮尔曼等级相关系数-rs[-1,1]

两个定序变量之间的对称关系。平方值具有PRE意义。

4.Gamma系数[-1,1]

两个定序变量之间的对称关系。PRE。

4.dy系数[-1,1]

两个定序变量之间的不对称关系。PRE。

5.简单线性回归分析

两个变量都是定距变量,且彼此关系不对称。

线性回归方程式y’=a+bx来预测或估计依变量y的数值。

6.积距相关系数r[-1,1]

两个定距变量的对称关系,而且假定两变量间呈线性相关。其平方值具有PRE的意义。除了表示相关程度与方向外,r系数值也可表示简单线性回归方程在预测时的准确程度。

7.相关比率E2[0,1]

一个定类变量与一个定距变量的非对称关系,也可用来分析定序变量与定距

变量的非对称关系。PRE。可用于分析具有非线性关系的两个定距变量。

第六章 统计推论与抽样

教学目的和要求: 通过本章的学习,使学生初步了解统计推论中的相关概念,明确抽样的历程和抽样类型的划分,能够根据调查的具体情况选取合适的抽样方法,理解概率论的基础知识,把握抽样分布及其特征。

教学重点和难点:重点是概率抽样法的分类,难点是抽样分布,尤其是正态分布的相关知识。

教学方法:课堂讲授,辅之以实例讲解。

教学内容:

第一节 统计推论的特点及相关概念

一、统计推论的特点

1、由于样本资料来源于总体,因此样本资料的特性在某种程度上能够反映总体的特性。

2、由于社会资料具有随机性,即抽样的结果不是唯一的,而且在抽样过程中不可避免地会产生误差,因此,一次抽样的结果不能恰好就等于总体的结果。

二、相关概念

1、统计值:从样本中计算出来的数值

2、参数值:总体中的数值

运用样本的统计值来推测总体的参数值。

第二节 抽样的历程

一、界定总体

二、收集个案名单

三、决定样本的大小

四、设计抽样的方法

五、评估样本的正误

第三节 非概率与概率抽样法

非概率抽样,在抽取样本时根据主观判断或其他操作上的方便进行。例如立意抽样法、偶遇抽样法和定额抽样法都属于这种。

概率抽样在抽取样本时依据的是随机原则。所谓随机原则就是在抽选调查对象时,规定了一定的程序,以保证每一个个体都有同等入选的机会,从而避免了主观因素的影响。

一、非概率抽样

1、立意抽样法,又称判定抽样法,是依据研究者的主观见解和判断,选取他认为是典型的个案。

2、偶遇抽样法。就是碰到谁调查谁。

3、定额抽样法。根据某些标准将总体分组,然后用立意或偶遇抽样法由每组中选取样本个案。

二、概率抽样

1、简单随机抽样:按照随机原则,直接从总体N个个案中,抽取n个个案作为样本,保证总体中每个个案在抽选时都有同等的机会被选中。

(1)简单重复抽样:把已经抽取出来的个案记录下来以后,再放回原有的总体中,参加下一次抽取。

(2)简单不重复抽样:被抽中的个案不再放回原来的总体中,因此是连续进行n次抽取构成一个样本。

随机数表的使用

2、等距抽样

又被称为机械抽样或系统抽样。它指的是,先将总体按某一因素排列,然后依固定的间隔,每隔若干个案抽出一个,构成等距抽样的样本。

总体中用以排序的因素,可以是与调查内容无关的,也可以是与调查内容有关的。在大规模的研究中,等距抽样简化了抽样过程,较为方便快捷。但需要大家注意的是,总体的排列不能存在周期性,否则样本的代表性会降低。

3、分层抽样

先将总体按与研究内容密切有关的主要因素分类或分层,然后在各层中按随机原则抽选一定个案构成样本。分层的目的,在于充分利用对总体已知的信息,把总体划成若干同质层,减少层内差异,增加抽样调查样本的代表性。所采用的分层标准,要保证分层以后,层与层之间的差别很大,但层内的差别则很小。

(1)分层定比抽样:样本中各层的抽取比例是相同的

(2)分层异比抽样:样本中各层的抽取比例不相同。当总体中某一层人数较少,但又具有较高的研究价值,这时可增大这一层的抽样比例。

4、整群抽样

总体被分为很多“群”,这些群是抽样的单位。一旦某些群被选入样本后,则群中的每一个个案都要接受调查。

整群抽样适用于群间差异小,而群内差异大的总体,这点正好和分层抽样相反。

5、多阶段抽样和PPS抽样

多阶段抽样,是先抽取若干群,然后从所选取的群中再抽取若干子群,再从子群中随机抽取子子群,依法继续往下抽取,直至抽中的个案满足了抽样者的要求。

PPS抽样是一种常用的多阶段抽样方法。它要求抽样的概率与群规模成比例。它的优点是不要求各阶段的群规模大小相同,只通过各阶段不等的抽样概率,最终实现了总体中的个体具有相同的抽样概率,从而保证了估计的无偏性。

f1=(某班人数/总人数)*2

f2=50/某班人数

f= f1* f 2=(某班人数/总人数)*2*(50/某班人数)=1/10

第四节 概率与抽样分布

一、概率的计算

概率指的是随机事件发生可能性大小的数量表示。

1.频率法

可以把随机事件的概率视作试验或观察次数N 趋于无穷时相应频率n/N的稳定值。这是概率的频率定义。由于试验或观察次数N为无穷是做不到的,因此,实际上可把观察次数N充分大时(例如社会调查中的样本数为1000人)的频率作为概率的近似值。

2.古典法:利用模型本身所具有的对称性来事先求得概率

⑴样本点和样本空间

随机试验,要求满足在相同条件下可以重复,而且在每次试验前虽然不能预言会出现哪一种结果,但它共有多少种可能的结果又是事先已知的。我们把随机

试验中的每一种结果称作一个样本点Ei,或称基本事件。而所有样本点的总体称作样本空间S。

扔掷一枚硬币。样本点E1:正面朝上;E2:反面朝上。样本空间S={正面朝上,反面朝上}

扔掷一枚色子。样本点E1:出现“1”点;E2:出现“2”点;E3:出现“3”点;E4:出现“4”点;E5:出现“5”点;E6:出现“6”点。样本空间S=(“1”,“2”,“3”,“4”,“5”,“6”)

⑵随机事件

基本事件自身或由基本事件组成的集合。它实际上就是样本空间S的子集。 扔掷一枚色子,“出现奇数点”就是一个随机事件。A=(1,3,5)。 ⑶古典法的使用

随机试验需要满足两个条件:

i.

ii. 样本空间只有有限个样本点。也就是随机现象的结果类型是有限的 每个样本点出现的可能性相同。即每一种结果出现的可能性相同。 当满足这两个条件时,我们即把随机试验称为古典型随机试验。

如果随机试验的样本空间包含n个样本点,它们出现的可能性是相同的。而随机事件A包含m个样本点,则事件A的概率为P(A)=

例1:扔掷一枚硬币,求出现“正面朝上”的概率。

样本点E1:正面朝上;E2:反面朝上。样本空间S={正面朝上,反面朝上}。n=2。

由于E1,E2是等可能的,所以满足古典概型。随机事件A=“正面朝上”, 包含1

个样本点E1。即m=1。概率P(A)=m1= n2

m31=。 n62m n 例2:扔掷一枚色子,出现“偶数点”的概率 n=6。随机事件A=“偶数点”,包含3个样本点,所以m=3。P(A)=

例3:扔掷两枚均匀的硬币,求出现“两枚都朝上”的概率以及“一枚朝上,一枚朝下”的概率[这两枚硬币是先后扔掷的]

样本空间S包括四个样本点,E1:两枚都朝上;E2:两枚都朝下;E3:第一枚朝上,第二枚朝下;E4:第一枚朝下,第二枚朝上。n=4。

随机事件A“两枚都朝上”,包含1个样本点。m=1。概率P(A)=m1=。 n4

随机事件B“一枚朝上,一枚朝下”包括2个样本点。概率P(B)=

二、正态分布

1、何为正态分布? m21=。 n42

在自然、经济、社会等领域内,如人的身高、体重、一片森林的高度、学生成绩、人的智商等、甚至公共入口门槛的磨损、海浪的高度等等随机变量,都服从一类确定的分布规律,这类分布规律叫做正态分布。

中心极限定理:

多个相互独立的随机变量相加(一般要求随机变量的个数大于30),不管它们是离散的的还是连续的或者是任何类型的,也不管它们原有的分布如何,只要它们大小相差并不悬殊,相加所得的随机变量必然接近正态分布。

大数定理:

研究在什么条件下,随机事件可以转化为不可能事件或必然事件,即有关阐明大量随机现象平均结果的稳定性的一系列定理。

贝努里大数定理:

在相同条件下,进行大量观察时,随机事件的频率有接近于它概率的趋势。 切贝谢夫大数定理:

当样本容量n足够大时,均值抽样分布的平均值接近于总体的均值。

2、正态曲线的特征

第一,曲线是单峰,且只有一个最高点。随着x向左、向右远离时,曲线不断地降低。“中间高 ,两边低”与一个古钟相似。第二,曲线在高峰处有一个对称轴,在轴的左右两边是对称的。对称轴是x=μ(μ表示变量的平均值,注意它是总体的平均值)。第三,曲线无论向左或向右延伸,都越来越接近横轴,但永远不会和横轴相交,以横轴为渐近线。

由于正态分布曲线是单峰对称的,因此,具有这种分布的变量,它的众值、中位值和均值是重叠的。

根据实践的经验和理论的分析,正态分布曲线可以用如下的数学公式表示出来:



xx22

3、正态曲线下的面积

直方图的面积为1,所以,正态曲线下的面积也可以视作1。

每个小直方形的面积=x*xi(x概率密度;xi组距)

在均值μ两旁各是一个标准差σ的范围内所包括的面积,为0.6827,换言之,总体中随机变量取值在区间[μ-σ,μ+σ]之间的概率为0.6827。依次类推,变量取值在区间[μ-2σ,μ+2σ]的概率为0.9545,在区间[μ-3σ,μ+3σ]之间的概率为0.9973。根据正态分布图形的对称性,如果用σ作为变量取值的组距,则围绕着μ,各σ所对应的概率将如课本144页图5-9所示。通过这个图形,我们得知,变量取值在[μ,μ+σ]或[μ-σ,μ]之间时其概率为34.13%。其余依次类推,在[μ-2σ,μ-σ]或[μ+σ,μ+2σ]之间的概率为13.6%。

4、标准正态分布

X的标准分或标准值:Zx

据Z值所得的分布称为标准正态分布。该正态分布的表达式为:

Z

2

Z 参数μ=0,σ=1

第五节 抽样分布

一、二项抽样分布

1、二点分布

所谓二点,是指变量的取值只有两类:是与否;男与女;生存与死亡;成功与失败;未婚与已婚等等,即通常我们说的二分变量。

扔掷一枚硬币的结果视作变量ε,则它有两个取值0,1,0表示反面朝上,1表示正面朝上。正面朝上的概率为p,反面朝上的概率为q,p+q=1。

随机变量ε有且只有两个取值0和1,取值为1的概率P(ε=1)=p,取值为0的概率P(ε=0)=q。二者之和为1。p+q=1。

2、二项分布

n次试验是独立的,指的是试验重复进行n次,而各次试验互不影响,即各次试验结果出现的概率都不依赖于其他次试验的结果。

一枚硬币连续扔掷4次,出现正面次数的概率分布? 2

变量ε=“四次独立试验中正面出现的次数”

变量ε包括5个取值:ε=0,ε=1,ε=2,ε=3,ε=4

00411412242P0C4pq P1C4pq P2C4pq

33434444P3C4pq P4C4pq

二项分布:如果在相同条件下进行n次相互独立的试验,每次试验只有两种结果,事件A出现,事件A不出现。事件A出现的概率PAp,事件A不出现的概率PA1pq。那么,n次试验中事件A出现次数ε的概率分布可以写作PxCnpxqnx(x=0,1,2,3„n)。二项分布可以简写作B(n, p)。

二项分布的随机变量可以看作许多相互独立的二点分布的随机变量之和,因此,随着n的不断增大,二项分布是趋近于正态分布的。

二、均值抽样分布

均值抽样分布表示的是,由同一总体中反复不断抽取不同样本时,各个可能出现的样本均值的概率分布情况。

1、实例[课本193-195页]

2、任意总体、大样本的均值抽样分布

中心极限定理:由于多个相互独立的随机变量相加(一般要求随机变量的个数大于30),不管它们是离散的,还是连续的或者是任何类型的,也不管它们原有的分布如何,只要它们大小相差并不悬殊,相加所得的随机变量必然接近正态分布。

只要样本容量足够大,即在大样本情况下,均值的抽样分布必将接近正态分布。对此,我们可以表述为,如果从均值为μ,方差为σ2x的总体中重复抽取大小为n的随机样本,那么当n逐渐增大时,样本均值X的抽样分布就接近于均值

2

为μ,方差为的正态分布。 n

xn ZX

n

当样本容量不断增大时,X

n接近标准正态分布。而且,在样本容量相当大的条件下,我们可以用样本标准差代替总体标准差,所以,X同样接近标S

n

准正态分布。

第七章 参数估计

教学目的和要求:通过本章的学习使学生能够依据样本的统计值对总体参数值进行点估计和区间估计,并可以根据可信度的大小来推测样本容量的大小。 教学重点和难点: 重点是区间估计,难点是大样本二总体均值差和二总体成数差的区间估计。

教学方法:课堂讲授,辅之以实例讲解

教学内容:

统计推论的两大类:

1、参数估计:根据一个随机样本的统计值来估计总体的参数值是多少。

2、假设检验:首先对总体的情况进行假设,然后以一个随机样本的统计值来检验这个假设是否正确,即通过样本对总体的某种假设进行检验。

参数估计,用通俗的话来讲,就是根据抽样结果来合理地、科学地猜测总体的参数大概是多少?或者在什么区间范围内?点估计是根据样本,科学地估测总体的参数大概是多少?而区间估计则是根据样本,科学地估测总体的参数在什么区间范围内?

一、相关概念

1、总体。就是研究对象的全体。

一类是研究总体,即理论上明确界定的个体的集合体。

一类是调查总体,是指研究者实际抽取样本时的个体集合体,它往往是对研究总体的进一步界定。

2、参数值和统计值。

参数值又称总体值,它是指总体中的数值。

统计值则是从样本中计算出来的数值。统计值与参数值往往是一一对应的。参数值——希腊字母表示;统计值——罗马字母表示。

μ——x;σ——S;p——P

重要区别:参数值是确定不变的、唯一的,并且通常是未知的;而统计值则是不断变化的,即对于同一个总体来说,不同样本所得的统计值是有差别的,同时,对于一个特定的样本来说,统计值是已知的,或者说是可以通过计算得到的。

二、点估计

所谓点估计,就是以一个适当的样本统计值来估计总体的未知参数值。 例子:n=300, P=60%——p=60%

x=1600元——μ=1600元

一般来说,如果样本越大,且抽样方法越严谨,则这种估计方法越可信。同时,不同的统计值在估计其总体值时所犯的偏差也不同,例如,均值和频率的准确程度高于标准差。尽管点估计的方法十分简单,但是,却无法了解到这种估计和推测的可信程度如何,因此,在社会学研究中,通常多采用区间估计。其实关于点估计的好坏,也有一定的评判标准,即无偏性、有效性和一致性。

三、区间估计

1、置信度和置信区间

置信度指的是总体参数值落在样本统计值某一区间内的概率,或者说,是总体参数值落在样本统计值某一区间中的把握性程度。

置信区间则是上面介绍置信度时所说的“某一区间”,它是指在一定的置信度下,样本统计值与总体参数值之间的误差范围,反映了估计的准确性或精确性。

ˆ-ε≤Q≤Qˆ+ε)=1-α。 P(Q

1-α——置信度,用置信区间估计的可靠性。α可以称作显著性水平,它与置信度正好相反,表示用置信区间估计的不可靠程度。

关于置信度,一般是根据实际情况预先给定的。常用的置信度标准有:1-α=0.90,0.95或0.99。在样本容量一定的情况下,置信区间和置信度是相互制约的。置信度越大,则相应的置信区间也越宽,即估计的可靠性越大,则估计得越不精确。

2.大样本总体均值的区间估计

例子:为了对某地区家庭用于请客送礼的支出进行研究,作了一次抽样调查。其样本容量n=225户,平均每月用于请客送礼的支出为X=43元,标准差为S=10.5元,试求该地区家庭平均每月用于请客送礼支出的区间估计(置信度取95%)。

当置信度为95%时,总体均值μ的置信区间为[X1.96

其中X是样本均值,S是样本标准差,n则是样本容量 Sn,X1.96Sn]。

置信区间的计算公式统一为[XZ

2S,XZ

2Sn]

3.大样本总体成数的区间估计

由于样本成数可以看作是n个满足二点分布的随机变量的均值。因此,根据中心极限定理,在大样本情况下(要求:np≥5,n(1-p)≥5,其中n为样本容量,p为总体成数,在总体成数未知的情况下,可以用样本成数代替),样本成数的分布可近似看作正态分布。该正态分布的均值为p,即总体成数,而方差为

p1ppqp1p,其中q1pn,在总体n,所以方差可以写为n,则标准差即为

成数未知的情况下,我们可以利用样本成数P代替。

设根据某城镇100户的随机抽查,得知其中有20.0%的家庭不和,即P=20.0%=0.20。求该城镇不和家庭所占成数p的置信区间(要求置信度为95%)。

PZ

2P1P≤p≤PZn2P1P n其中P是一次抽样中所获得的样本成数。α是显著度水平。n是样本容量,Z是标准正态分布中双侧区间的分位点。

2

当样本相当大时,可以用样本成数P代替总体成数p,以计算抽样分布标准

差。

P另外也可以以=0.50代入抽样分布标准差的计算公式,以此可以获得最大

的置信区间。

4、大样本二总体均值差的区间估计

2,11假设有两个总体,第一个总体的均值和方差分别为:

2,22第二个总体的均值和方差分别为:

现从两总体中独立地各抽取一个随机样本,经过调查发现:

2X1,S1来自第一总体的样本均值和方差为:

2X2,S2来自第二总体的样本均值和方差为:。

二总体均值差的点估计值——X1X2 二总体均值差的区间估计:X1X2ZX1X2,X1X2ZX1X2 22

1

2

5、大样本二总体成数差的区间估计

假设有两个总体,第一个总体的成数为p1,第二个总体的成数为p2

现从两个总体中独立的各抽取一个随机样本:

第一个总体的样本容量为n1,样本成数为P1

第二个总体的样本容量为n2,样本成数为P2

由此得到的样本成数差P1-P2即可以作为总体成数差p1-p2的点估计值。 P1-P2 Zp1p2,P1-P2 Zp1p2

22

P1P2

四、样本容量的计算

决定样本大小的因素:

抽样误差;研究代价;总体内部的差异程度;日后的资料分析计划

决定样本大小的一般准则:

根据所能付出的研究代价的最大限度抽取最大的样本

1、根据均值的区间估计公式计算样本容量

假设,我们的研究目的是要了解总体中的均值μ,从一个样本容量为n的随 机样本中计算出来的样本均值记作X,则μ-X,就是所愿意容忍的错误,即允许的误差范围。如用绝对值表示,就是X 在估计总体的均值时,置信区间应该是:XZ

2nXZ

2n

Z

2nXZ

2n→Δ=Z2Z2→nn 

221.96如果要求的置信度为95%,则该公式可以进一步转化为n 

Δ可以根据研究的需要来决定,在总体标准差σ未知的情况下,可以选用样本标准差S。

同理以此类推其他可信度下,样本大小公式

2、根据总体成数区间估计计算样本容量。

Z2p1p2n2,其中p表示总体成数,在总体成数未知的情况下,也可以用以前调查获得的样本成数来代替。而Δ表示所允许的误差范围,即总体成数与样本成数之间的差异。

以上介绍的公式只能作为确定样本容量的参考值。在实际进行抽样调查时,样本的大小还要考虑诸如研究代际,日后资料分析计划等多项指标。

第八章 假设检验的基本概念

教学目的和要求:通过本章的学习使学生掌握假设检验的基本概念及原理,熟悉假设检验的步骤和两类错误。

教学重点和难点: 重点是架设检验的基本原理——小概率原理,难点是假设检验中的两类错误。

教学方法:课堂讲授,结合实例讲解

教学内容:

第一节 统计假设

一、什么是统计假设

这种和抽样手段联系在一起,并且依靠抽样数据进行验证的经验层次的假设,就是统计假设。也就是说,如果不采用抽样方法的话,也就不存在统计假设了。今后我们讨论的假设,都是经验层次的假设,而且也都是需要借助抽样调查予以证实的,因此都是统计假设,或简称假设。

所谓假设检验,就是先成立一个有关总体情况的假设,继而抽取一个随机样本,以样本的统计值来验证该假设是否成立。

二、虚无假设与研究假设

假设一般包括两部分:虚无假设H0和研究假设H1。现在,我们分别认识一下这两种假设。

虚无假设H0:又称原假设或解消假设,一般用H0表示。它常常是根据已有的资料,或根据周密考虑后确定的。

研究假设H1:又称为备择假设。当经过抽样调查,有充分根据否定原有假设H0时,就产生了需要接受的研究假设,它是虚无假设的逻辑对立面。

一个完整的假设应该包括两部分:虚无假设H0和研究假设H1。至于它们的具体写法,根据实际的研究内容来确定。

三、假设检验的基本原理

小概率原理:一是可以认为小概率事件在一次观察中是不可能出现的。二是如果在一次观察中出现了小概率事件,那么,合理的想法,是否定原有事件是小概率事件的说法。

经过抽样获得一组数据,即一个来自总体的随机样本,如果根据样本计算的某个统计量(或几个统计量,如均值、百分数等)表明在虚无假设H0成立的条件下几乎是不可能发生的,就拒绝或否定这个虚无假设,并继而接受它的对立面——研究假设。反之,如果在虚无假设H0成立的条件下,根据样本所计算的某个统计量,发生的可能性不是很小的话,那么就接受虚无假设。

第二节 假设检验中的名词

一、

假设检验中的假定

假定是被确认和接受的事实,是进行检验的前提或要求。在今后运用各种统计技术时,一定不要忘记所用方法的假定,否则会导致错误的结论。 二、假设检验中的统计量

选取合适的统计量是十分重要的。

所谓统计量,就是从样本中计算出来的某个数值。因此,对于某个样本来说,统计量的值应该是确定的。而作为假设检验中的统计量,除了满足这个条件外,还必须保证,在虚无假设H0成立的条件下,统计量的值也应该是确定的。其次,所选用统计量的抽样分布情况也应该是已知的,其值是有表可查的,一般选择Z分布(即标准正态分布)、t分布、F分布或x2分布的统计量。 三、显著度α(又称显著性水平)

它一般是指在虚无假设成立的条件下,统计检验中所规定的小概率的标准。即规定小概率的数量界线。在进行研究时,通常是先决定显著度的大小。常用的标准有α=0.10;α=0.05或α=0.01。 四、接受域和否定域

否定域可以表述为抽样分布内一端或两端的小区域,如果样本的统计值在此区域范围内则否定虚无假设。

显著度——否定域在整个抽样分布中所占的比例(即样本统计值落在否定域内的机会)。

五、双边检验和单边检验

1、双边检验:否定域选择了统计量抽样分布的两侧。

P(Z>Z)=α H0:μ=μ0;H1:μ≠μ0。

2

2、单边检验:否定域选择了统计量分布的一侧。根据否定域选择在左侧还

是右侧,单边检验又可以分作右侧单边检验和左侧单边检验。

右侧单边检验:P(Z>Zα)=α H0:μ=μ0;H1:μ>μ

左侧单边检验:P(Z

第三节 假设检验的步骤和两类错误

一、假设检验的步骤

1、根据实际问题做出假设。假设包括原假设和备择假设

2、根据样本构成合适的、能反映原假设的统计量,并在原假设成立的条件下确定统计量的分布。

3、根据问题的需要,确定显著度的大小,并求出否定域和临界值

4、根据以上三步骤建立以来的具体检验标准,用样本统计量的观测值急性判断,若样本统计量的值落入否定域,则拒绝原假设,接受备择假设,否则,接受原假设。 二、两类错误

1、弃真的错误

真实状况确实如原假设H0所示,但被我们拒绝了,因此,犯了弃真的错误。在统计中称第一类错误或甲种误差。犯第一类错误的大小就是显著度α。

2、纳伪的错误

真实状况并非如原假设所示的那样,但我们接受了原假设,因而犯了纳伪的错误。它是在接受原假设时出现的错误。称作第二类错误或乙种误差。犯纳伪错误的概率以β表示。 三、假设检验的类型

1、参数检验法

要求总体具备某些条件,如正态分布或标准差相等,还要求变量为定距以上层次的变量。假如总体中的确具备这些条件,则参数检验法可以相当准确地判定原假设的正误。一般来说,统计法所要求的条件越多,其检定力通常越强。

2、非参数检验法

又称分布自由检验法。其特点是不要求总体数值具备特殊的条件。非参数检验法对变量的测量层次也没有任何要求。因此,可以用于定类或定序变量。但是,由于非参数检验法不理会总体的情况,在推论时较为困难,准确性因此会受影响。所以,在总体确实具备某些条件时,参数检验法比非参数检验法更好。

第九章 单总体假设检验

教学目的和要求:通过本章的学习使学生对假设检验的具体知识有更深的了解和认识,并能够应用所学知识对单样本总体的均值及百分率进行假设检验。 教学重点和难点: 重点是大样本总体均值假设检验和总体成数假设检验,难点是小样本总体均值假设检验。 教学方法:课堂讲授,结合实例讲解 教学内容:

第一节 大样本假设检验

一、大样本总体均值检验

根据以往资料,某学校应届毕业生的平均初始薪金为1500元,但今年根据100名应届毕业生的随机抽样调查发现,这100名学生的平均初始薪金为1600元,标准差为90元,问能否认为今年该学校应届毕业生的初始薪金比以往有所提高?

原假设H0:μ=1500元,研究假设H1:μ>1500元

Z

X

n

X16001500

11.1>Zα=1.65 S90n

∴否定原假设H0,接受研究假设H1

大样本总体均值假设检定的基本逻辑:先设立H0,进而以此为基础来确定抽样分布。如果我们所抽取的一个随机样本中的统计值Z

X

n

,在以H0为

基础的抽样分布中出现的机会是很小的,那就理应否定原假设(H0),改而接受研究假设H1。

H0:μ=μ0;H1:μ≠μH0:μ=μ0;H1:μ>μH0:μ=μ0;H1:μ

0 0

Z

X

n

σ≈S

ZZ/ZZ/Z>Z/ Z

2

2

二、大样本总体百分比检验

例如,根据以往资料,某地区工人中有35%的人满意其工作环境。现从全区中随机抽取了150名工人来调查,发现满意其工作环境的工人占样本总数的45%。问,该地区工人对工作环境的满意程度是否有所提高。

虚无假设H0为:p=0.35,而研究假设H1为:p>0.35。

0.45-0.35Pp

2.57>>Zα=1.65 Z==

0.35*1-0.35p1p150n∴否定原假设H0,接受研究假设H1

大样本总体成数假设检定的基本逻辑:先设立H0,进而以此为基础来确定抽样分布。如果我们所抽取的一个随机样本中的统计值Z=

Ppp1pn

,在以H0

为基础的抽样分布中出现的机会是很小的,那就理应否定原假设(H0),改而接受研究假设H1。

H0:p=p0;H1:p≠p0 H0:p=p0;H1:p>p0 H0:p=p0;H1:p

PpZ=

p1pn

ZZ/ZZ/Z>Z/ Z

2

2

第二节 小样本假设检验

一、总体呈正态分布,总体方差σ2已知

小样本均值的抽样分布同样会趋近于正态分布,该正态分布的均值即为总体

2

均值μ,方差则为n,σ2为总体方差

Z

X

n

H0:μ=μ0;H1:μ≠μH0:μ=μ0;H1:μ>μH0:μ=μ0;H1:μ

0 0

Z

X

n

ZZ/ZZ/Z>Z/ Z

2

2

二、总体呈正态分布,总体方差σ2未知

X

服从自由度为n-1的t分布 Sn

自由度越小(即样本越小),则t分布越扁平,自由度越大,(即样本越大),则t分布越高耸且越接近正态分布。

t=

X

Sn

H0:μ=μ0;H1:μ≠μH0:μ=μ0;H1:μ>μH0:μ=μ0;H1:μ

t=

0 0

X

Sn

tt/tt/t>t/ t

2

2

第十章 二总体假设检验

教学目的和要求:通过本章的学习使学生能够运用所学知识对大样本二总体均值差和成数差进行假设检验。

教学重点和难点: 重点是大样本二总体均值差假设检验和二总体成数差假设检验。

教学方法:课堂讲授,结合实例讲解 教学内容:

第一节 相关概念

一是独立样本。即从两个总体中,分别独立地各抽取一个随机样本进行比较和研究。简单来说,独立样本是指两个样本之间没有任何关联。

二是配对样本。配对样本与独立样本相反,它指的是两个具有相互关联的样本。第一种配对样本是从一个总体中随机抽取一个样本,但样本中每个个体都要先后观测两次。因此,这一个样本可以看作两个相互关联的样本。第二种配对样本则是的确存在两个不同的样本,但这两个样本之间存在某些关联。

第二节 大样本二总体假设检验

一、二总体均值差假设检验

总体A:μA、σ总体B:μB,σ

2 A

样本A:nA、XA 、SA2

样本B:nB、XB、SB2

2 B

nA≥50,nB≥50

H0:AB0

H1:AB0,AB

0,A

B

Z=

X

A

XB

2

A2B

nAnB

2

2

双边检验:Z〉Z,或Z

左侧单边检验,Z

总体A:p样本A:P

A A,nA 总体B:pP

B 样本B:B,nB H0:pApB0。

H1:双边检验pApB0;右侧单边检验pApB

0;p)ApB

0。

Z

pAPA,pBPB。

显著度为α

双边检验:Z〉Z,或Z

2

2

右侧单边检验:Z〉Z时,否定原假设H0。 左侧单边检验:Z

左侧单边检验

第十一章 假设检验:两个变量的相关

教学目的和要求:通过本章的学习使学生能够运用所学知识对两个变量之间的相关关系进行假设检验。

教学重点和难点:重点是列联表的检验和Gamma系数的检验,难点是单因方差分析与F检验。

教学方法:课堂讲授,结合实例讲解 教学内容:

第一节 列联表的检验——x2检验

x2检验是一种非参数检验法。

要求:随机抽取的样本 两个变量都具有定类性质 H0:变量x与变量y无关。 H1:变量x与变量y有关。

x

2

fe2

e

f —列联表中每个方格内的实际次数,即条件次数。

e —在原假设H0成立的条件下每个方格内的次数,即期望次数。具体指的是,如果在总体中两个变量没有关系的话,列联表内每个方格所应有的次数。每一方格内的期望次数其实就是其所对应的两个边缘次数除以样本容量。 自由度 K=(r-1)(c-1) r与c分别表示列联表的行数和列数

2越大,H0正确的可能性越小

2的抽样分布取决于自由度,在决定显著度后,就要视乎自由度的大小,通过

查表可得到不同自由度下的2值。

2如果显著度为α,则否定域的临界值可以写作x。 2若2〉x,则否定原假设H0。

倘若,一个是定类变项,另一个是定序变项,通常也用2检定。

第二节 Gamma及其他等级相关的检验

Z检定法

H0:γ=0(γ表示总体中的Gamma系数,所以原假设意味着总体中两个变量之间是无关的)

双边检验H1:γ≠0(即总体中两个变量之间是有关的)。

右侧单边检验H1:γ>0(γ系数大于0说明两个变量之间呈正相关) 左侧单边检验H1:γ<0(即在总体中,两个变量不仅相关,而且呈负相关)。

Z=

GG2

nsnd

n

G=随机样本Gamma系数值 n=样本大小

Ns=同序对数 Nd=异序对数

双边检验:Z>Z或Z

2

2

右侧单边检验:Z>Zα时,否定原假设

左侧单边检验,则否定域的临界值写作-Zα,当Z

第三节 单因方差分析与F检验

F检验是参数检验法的一种,除了要求样本为随机样本,一个变量为定距变量外,它还要求各组的总体均为正态分布,且具有相等的方差。

E2F=

1E2

nk k1

K1=k-1 K2=n-k

H0:各组总体中的均值相等 H1:各组总体中的均值不相等

E2nkF= 21Ek1

K1=k-1 K2=n-k E2样本的相关比率 n 样本大小 k 分组数目 若F〉Fα(K1,K2),则否定原假设H0。

F检定基本逻辑:倘若我们在总体中以X解释或预测Y,理应消减若干误差,可用相关比率(E2)来表示,至于剩余的误差,就是1-E2,F比率要计算的,就是这两类误差的比率。

总体的消减误差总体的E2

即F 

总体的剩余误差总体的(1-E2)

E2nkF 2(1-E)k1

不用E值时的F检定公式: F

BSSnk

() WSSk1

df k1 df2n1kBSS组际平方和,代表被消减的方差 WSS组内平方和,代表剩余的方差 TSS全部平方和,即原有全部方差

TSS=BSS+WSS

=(Y)

BSS=ni(Yi) WSS=(YI)

其中,Y是每个个案的数值,是全部个案的均值,ni是每组的个案数目,

222

I是每组的均值

方差分析的基本道理是将全部方差分解为两部分:消减方差和剩余方差,然后从相互比较中推论X与Y在总体中是否相关。F比率就是消减方差与剩余方差的对比,F值越大,就表示X与Y越可能相关。

第四节 积距相关与回归系数的检定

一、

F检定

r2(n2)1、检定公式:F df11 df2 2n

1r2

n 样本大小 r 样本的积距相关系数值 2、应用条件:x与y成直线关系

由于r2具有消减误差比例的含义,则1-r2就是剩余误差。然而要估计总体的


相关文章

  • 统计学课程标准
  • <统计学>课程标准 第一部分 前言 课程代码:H0101334 课程名称:统计学 标准学时:48 课程类型:理论课 <统计学是>一门搜集.处理.分析数据的方法论学科,它是国际贸易.会计学.工商管理.物流管理专业的一门 ...查看


  • 微型党课教案 1
  • 为了谁.依靠谁.我是谁 [教学对象] 镇各村.社区,镇机关各部门,镇各直属企事业单位全体党员干部 [教学目标] 了解"为了谁.依靠谁.我是谁"提出的背景:理解"为了谁.依靠谁.我是谁"的深刻含义以及其 ...查看


  • 苏教版·六年级(下)数学·统计与可能性复习教案
  • 苏教版·六年级(下) ·数学·复习教案 总课题 课题 总复习 统 计 与 概 率 总课时 27 第 课型 复习 授课日期 20 课时 月 日 教学目标 教学重点 教学难点 教学准备 1.让学生进一步体会数据与现实生活的的密切关系,明确收集. ...查看


  • 幼儿园大班数学教案:超市整理员
  • 很幸运能在12月份的新教师培训中观摩了区数学组顾美娟老师组织的大班数学活动<超市整理员>,这节活动主要是探索统计的方法.现在对大班的课程不是很了解,正好借此机会多学习.到了大班,幼儿已经接触过初步的统计,同时大班幼儿的合作能力显 ...查看


  • 档案资料整理参考目录
  • 中小学学校管理档案资料整理参考目录 2010-03-16 15:42:42|  分类: 教育管理 |  标签: |字号大中小 订阅 中小学学校管理档案资料整理参考目录 各学校应根据36条标准和评估要求注释,结合学校工作实际,整理出全面.详实 ...查看


  • 五年级数学下册 统计教案 青岛版
  • 复式条形统计图 [教学内容]<义务教育课程标准实验教科书. 数学>(青岛版)六年制五年级下册第第六单元 [教材简析] <复式条形统计图>是在大家学习了统计表.单式条形统计图和折线统计图的基础上进行学习的.本节课的主要 ...查看


  • 幼儿园大班社会教案:做一个有爱心的人
  • 活动目标: 1.通过交流调查情况,了解社会上需要帮助的人和事. 2.培养幼儿的同情心并乐意助人,做一个有爱心的人. 活动准备: 活动前幼儿完成需要帮助的人调查;幻灯:部分需要帮助的人的图片资料;幼儿捐款统计表 ,背景音乐:<爱的奉献& ...查看


  • 幼儿园大班社会教案:今天我当家
  • 活动目标 1.能关注家庭的需要,了解当家不容易,懂得节约. 2.初步建立健康消费的观念,懂得花钱要合理.有计划. 活动重难点:懂得节约,学会合理.有计划地花钱. 活动准备 1.经验准备:认识人民币;与家人去超市购物,对所购商品的用途有所了解 ...查看


  • 幼儿园大班社会教案:爱的奉献
  • 目标: 1.通过交流调查情况,了解社会上需要帮助的人和事. 2.培养幼儿的同情心并乐意助人,做一个有爱心的人. 准备: 活动前幼儿完成需要帮助的人调查;幻灯:部分需要帮助的人的图片资料;幼儿捐款统计表,背景音乐:<爱的奉献>,捐 ...查看


  • 幼儿园大班社会教案:学会合作
  • 设计思路: 孩子是国家未来的栋梁,未来的社会是个竞争与合作并存的社会,"学会合作,学会交往"是社会对我们每个人提出的必备的要求."合作"对于幼儿个体全面发展也是很重要的.<纲要>中也明确指 ...查看


热门内容