统计学相关概念

第1章绪论

1、统计学是以现象的数量特征为研究对象，利用自身特有方法，发现现象应有规律的一

门方法论科学。

2、总体和总体单位

（1事物的全体。

（2）总体单位：简称单位，是组成总体的各个个体。它是构成总体的基础。

3、样本和样本单位

样本：从总体中获得的一个群或组。从总体中抽取出来，组成的集合体。

4、标志和标志表现

（1）标志：用来描述总体单位的属性、特征的概念和数值。（2）标志表现：各单位的属性或特征的具体表现（3）标志的分类：

按表现形式分：①品质标志

②数量标志

按有无差异分：①不变标志

②可变标志

（可变的数量标志称为变量）

5、指标： 6、统计调查方法

单项数列

等距数列异距数列

）

（指本组的次数与本组组距之比，异距数列中用到）

第2章描述统计

1、集中趋势

（1）集中趋势是指一组数据向分布的中心集中的现象。描述集中趋势的实质是找出数据的集中点或中心值。

（2）数据分布集中趋势的测度指标称为平均指标。

常见的平均指标中位数Mo（3）计算公式

（、H、G①算术平均数：=②调和平均数H：Hfx

0） ∑f

故如果有一变量值为0，则计算结果为0）

存贷款的复利算法、产值等

处于中点位置的变量值就是中位数。

∑f

⑤众数Mo：总体中出现次数最多的数。

-Sm-1fm

⋅i（下限公式）

先确定众数位置，然后计算众数Mo=L+

（4）中位数、众数和算术平均数的关系：Mo=3Me-2

∆1

⋅i（下限公式）

∆1+∆2

（1）z分数：通常被称为标准化值，表示观察值偏离平均数的标准差个数。z=

x-σ

（2）切贝谢夫定理：在任意一组数据中，至少有(1-1/z)个数据落在与平均数z倍标准差范围内，z是大于1的任意数。

1、时间序列23 （

（fn-1

f1+f2+...+fn-1

4、长期趋势分析

（1

（2

（3）长期趋势测定

yt∑∑ =-b

5、季节变动分析

（1只受季节变动和不规则变动影响的时间序列。

（2

第4

1、指数的概念

（1（22、指数的分类

qp））

3（1 （2

（③理想指数是对拉氏指数和帕氏指数直接进行平均型交叉的结果。

（3）计算公式

Kq=K

∑qpqp∑pq=

1010

（同度量因素为p，固定在基期）（同度量因素为q，固定在报告期）

4、平均数指数的编制

（1 （2）计算公式

Kq=

∑K⋅qpqp

0Kq，可以运用加权算术平均数指数计算Kq）

qpq1p1和个体指数Kp，可以运用加权调和平均数指数计算Kp）

5（1 （2

②结构影响指数K

∑xff=

xff

0100

③固定结构指数Kx

xff=

xff

6、总量指标变动的因素分析

qp（1q1p0-∑q0p0)+(∑p1q1-∑p0q1)

+价格变动引起的销售额的变动额

（27即K=K⋅K

xf)+(xf

xffx

00111

xf-

)

第5章抽样和抽样分布

1、几个基本概念

（1）总体和样本

（2）总体参数和样本统计量

①总体参数：根据全及总体各单位变量值计算的反映全及总体某数量特征的综合指标，由于全及总体唯一确定，所以称为总体参数。

总体参数包括：总体容量N，总体平均数μ，总体成数P，总体标准差σ，总体方差σ。故称为样本统计量，它是一个随机变量。

样本统计量有：样本容量n，样本平均数，样本成数p，样本标准差S

（3）大样本和小样本

样本容量小于30称为小样本，样本容量大于等于30称为大样本。（4）重复抽样和不重复抽样

（5）抽样的各种组织形式

的每个单位，被抽取的机会都是相等的。

称为分层随机抽样。

织方式。

（6）随机变量

（1

i=ipi≥0且∑pi=1

（

X有P(X=xi)=pi，用E(X)=

∑xp表示X的数学期望。一个随机变量的数学期望是对

该随机变量概率分布中心位置的度量，它反映了随机变量的平均取值。

②随机变量的方差定义为一个随机变量取值与期望值的离差平方之期望值。设随机变量为X，其方差记为D(X)。方差计算公式为D(X)=

∑[x-E(X)]

⋅p或D(X)=E(X2)-[E(X)]2。

（3）常见的离散型随机变量 ①0-1分布（也称两点分布）

如果随机变量X只可能取0和1两个值，它的概率分布为P(X=1)=p，P(X=0)=1-p=q，则称X服从参数为p的两点分布，也称0-1分布，P(X=x)=pxq1-x(0

0-1分布的数学期望为p，方差为p(1-p)。 ②二项分布

在n次独立的试验中，（n重贝努里试验）出现“成功”的次数的概率为P(X=k)=C，X

服从参数(n,p)的二项分布，记作X~B(n,p)。

二项分布的数学期望为E(X)=np，方差为D(X)=np(1-p)。

3、连续型随机变量

（1）连续型随机变量的概率密度函数和分布函数 ①概率密度函数

设X作f(x)f(x)曲线（或直线）在该区间上围成的面积。

概率密度函数满足以下两个条件：f(x)≥0；

⎰

+∞

-∞

x2)=P(x1

≤x)=

⎰

-∞

f(t)dt。

；F(X）是一个单调非减的函数。

12σ

(x-μ)2

，-∞

；曲线与横轴所围面积为1。（其他性质略）

如果正态分布的随机变量具有均值为0，标准差为1的特征，则称该随机变量服从标准正态分布，记为X~N(0,1)。任何一个服从一般正态分布的随机变量X~N(μ,σ)都可通过Z转换成标准正态分布N(0,1)，转换公式为

4、三种分布

x-μ

，变换后Z=

x-μ

~N(0,1)。

①总体分布：总体中各元素（单位）的观察值所形成的频数分布，称为总体分布。

②样本分布：从总体中抽取一个容量为n的样本，由这n个观察值形成的相对频数分布称为样本分布。

重复抽样：p~N(P,

不重复抽样：p~N(P,

P(1-P)

)

nP(1-P)N-n

⋅) nN-1

第6章总体参数估计

1、点估计

用样本估计量的值直接作为总体参数的估计值，称作参数的点估计。点估计具有无偏性、一致性和有效性三个性质。（1）无偏性

（注意：总体标准差的无偏估计量为s=

（2）有效性

小的估计量是更有效的估计量。

（3

）一致性

2、区间估计的要素

（1）三种误差

①抽样（实际）误差

②抽样平均误差

例如总体均值的抽样极限误差表示E=zα⋅

，式中zα称为临界值，临界值

称为置信90%、95%、95.45%，对应的临界值分别为1.645、

±zα（4）综上，根据样本均值构造的总体均值μ的置信水平为(1-α)σ

，

即置信区间为[-zα

,+zα

]。可以表述为我们有(1-α)的把握保证我们构造的区间

[-zα

,+zα

]包含总体均值。

3、单个总体参数的区间估计

（1）总体均值估计

（2）总体成数估计（大样本）p（3

（

第7章假设检验

1、假设检验的基本思想

（1）假设检验

先对总体参数提出某种假设，然后利用样本信息判断假设是否成立的过程，称为假设检验。（2）原假设和备择假设 ①原假设H0

通常将研究者想收集证据予以反对的假设称为原假设，或零假设，用H0表示。或≥。

②备择假设H1

通常将研究者想收集证据予以支持的假设称为备择假设，或研究假设，用H1的原假设对应的备择假设分别含有符号≠、>或

（3）双侧检验和单侧检验 ①双侧检验

②单侧检验

。备

（4）两类错误与显著性水平 ①弃真错误

α表示。

②取伪错误

当原假设为假时没有拒绝原假设，又称为取伪错误（或纳伪错误），犯此类错

α。，标~N(μ,

σ2

)，即z=

-μ0

σn

~N(0,1)。

第三步：根据显著性水平查表，得出临界值和拒绝域。第四步：得出结论。

大样本（1 （2）总体成数的假设检验（大样本）：检验统计量 z=

（3

（1

（2

（3 F

第8章相关和回归分析

1、基本概念

（1）相关关系

变量之间存在的不确定性数量关系，称为相关关系。

（2）相关系数

2yˆ的平均离差，说明回归方程推算结果的准确程度，其计算公式为估计标准误差是指实际值y与估计值y

Sy=ˆ)(y-y

n-22，简化公式为Sy=∑y2-a∑y-b∑xy

n-2。

第1章绪论

1、统计学是以现象的数量特征为研究对象，利用自身特有方法，发现现象应有规律的一

门方法论科学。

2、总体和总体单位

（1事物的全体。

（2）总体单位：简称单位，是组成总体的各个个体。它是构成总体的基础。

3、样本和样本单位

样本：从总体中获得的一个群或组。从总体中抽取出来，组成的集合体。

4、标志和标志表现

（1）标志：用来描述总体单位的属性、特征的概念和数值。（2）标志表现：各单位的属性或特征的具体表现（3）标志的分类：

按表现形式分：①品质标志

②数量标志

按有无差异分：①不变标志

②可变标志

（可变的数量标志称为变量）

5、指标： 6、统计调查方法

单项数列

等距数列异距数列

）

（指本组的次数与本组组距之比，异距数列中用到）

第2章描述统计

1、集中趋势

（1）集中趋势是指一组数据向分布的中心集中的现象。描述集中趋势的实质是找出数据的集中点或中心值。

（2）数据分布集中趋势的测度指标称为平均指标。

常见的平均指标中位数Mo（3）计算公式

（、H、G①算术平均数：=②调和平均数H：Hfx

0） ∑f

故如果有一变量值为0，则计算结果为0）

存贷款的复利算法、产值等

处于中点位置的变量值就是中位数。

∑f

⑤众数Mo：总体中出现次数最多的数。

-Sm-1fm

⋅i（下限公式）

先确定众数位置，然后计算众数Mo=L+

（4）中位数、众数和算术平均数的关系：Mo=3Me-2

∆1

⋅i（下限公式）

∆1+∆2

（1）z分数：通常被称为标准化值，表示观察值偏离平均数的标准差个数。z=

x-σ

（2）切贝谢夫定理：在任意一组数据中，至少有(1-1/z)个数据落在与平均数z倍标准差范围内，z是大于1的任意数。

1、时间序列23 （

（fn-1

f1+f2+...+fn-1

4、长期趋势分析

（1

（2

（3）长期趋势测定

yt∑∑ =-b

5、季节变动分析

（1只受季节变动和不规则变动影响的时间序列。

（2

第4

1、指数的概念

（1（22、指数的分类

qp））

3（1 （2

（③理想指数是对拉氏指数和帕氏指数直接进行平均型交叉的结果。

（3）计算公式

Kq=K

∑qpqp∑pq=

1010

（同度量因素为p，固定在基期）（同度量因素为q，固定在报告期）

4、平均数指数的编制

（1 （2）计算公式

Kq=

∑K⋅qpqp

0Kq，可以运用加权算术平均数指数计算Kq）

qpq1p1和个体指数Kp，可以运用加权调和平均数指数计算Kp）

5（1 （2

②结构影响指数K

∑xff=

xff

0100

③固定结构指数Kx

xff=

xff

6、总量指标变动的因素分析

qp（1q1p0-∑q0p0)+(∑p1q1-∑p0q1)

+价格变动引起的销售额的变动额

（27即K=K⋅K

xf)+(xf

xffx

00111

xf-

)

第5章抽样和抽样分布

1、几个基本概念

（1）总体和样本

（2）总体参数和样本统计量

①总体参数：根据全及总体各单位变量值计算的反映全及总体某数量特征的综合指标，由于全及总体唯一确定，所以称为总体参数。

总体参数包括：总体容量N，总体平均数μ，总体成数P，总体标准差σ，总体方差σ。故称为样本统计量，它是一个随机变量。

样本统计量有：样本容量n，样本平均数，样本成数p，样本标准差S

（3）大样本和小样本

样本容量小于30称为小样本，样本容量大于等于30称为大样本。（4）重复抽样和不重复抽样

（5）抽样的各种组织形式

的每个单位，被抽取的机会都是相等的。

称为分层随机抽样。

织方式。

（6）随机变量

（1

i=ipi≥0且∑pi=1

（

X有P(X=xi)=pi，用E(X)=

∑xp表示X的数学期望。一个随机变量的数学期望是对

该随机变量概率分布中心位置的度量，它反映了随机变量的平均取值。

②随机变量的方差定义为一个随机变量取值与期望值的离差平方之期望值。设随机变量为X，其方差记为D(X)。方差计算公式为D(X)=

∑[x-E(X)]

⋅p或D(X)=E(X2)-[E(X)]2。

（3）常见的离散型随机变量 ①0-1分布（也称两点分布）

如果随机变量X只可能取0和1两个值，它的概率分布为P(X=1)=p，P(X=0)=1-p=q，则称X服从参数为p的两点分布，也称0-1分布，P(X=x)=pxq1-x(0

0-1分布的数学期望为p，方差为p(1-p)。 ②二项分布

在n次独立的试验中，（n重贝努里试验）出现“成功”的次数的概率为P(X=k)=C，X

服从参数(n,p)的二项分布，记作X~B(n,p)。

二项分布的数学期望为E(X)=np，方差为D(X)=np(1-p)。

3、连续型随机变量

（1）连续型随机变量的概率密度函数和分布函数 ①概率密度函数

设X作f(x)f(x)曲线（或直线）在该区间上围成的面积。

概率密度函数满足以下两个条件：f(x)≥0；

⎰

+∞

-∞

x2)=P(x1

≤x)=

⎰

-∞

f(t)dt。

；F(X）是一个单调非减的函数。

12σ

(x-μ)2

，-∞

；曲线与横轴所围面积为1。（其他性质略）

4、三种分布

x-μ

，变换后Z=

x-μ

~N(0,1)。

①总体分布：总体中各元素（单位）的观察值所形成的频数分布，称为总体分布。

②样本分布：从总体中抽取一个容量为n的样本，由这n个观察值形成的相对频数分布称为样本分布。

重复抽样：p~N(P,

不重复抽样：p~N(P,

P(1-P)

)

nP(1-P)N-n

⋅) nN-1

第6章总体参数估计

1、点估计

用样本估计量的值直接作为总体参数的估计值，称作参数的点估计。点估计具有无偏性、一致性和有效性三个性质。（1）无偏性

（注意：总体标准差的无偏估计量为s=

（2）有效性

小的估计量是更有效的估计量。

（3

）一致性

2、区间估计的要素

（1）三种误差

①抽样（实际）误差

②抽样平均误差

例如总体均值的抽样极限误差表示E=zα⋅

，式中zα称为临界值，临界值

称为置信90%、95%、95.45%，对应的临界值分别为1.645、

±zα（4）综上，根据样本均值构造的总体均值μ的置信水平为(1-α)σ

，

即置信区间为[-zα

,+zα

]。可以表述为我们有(1-α)的把握保证我们构造的区间

[-zα

,+zα

]包含总体均值。

3、单个总体参数的区间估计

（1）总体均值估计

（2）总体成数估计（大样本）p（3

（

第7章假设检验

1、假设检验的基本思想

（1）假设检验

先对总体参数提出某种假设，然后利用样本信息判断假设是否成立的过程，称为假设检验。（2）原假设和备择假设 ①原假设H0

通常将研究者想收集证据予以反对的假设称为原假设，或零假设，用H0表示。或≥。

②备择假设H1

通常将研究者想收集证据予以支持的假设称为备择假设，或研究假设，用H1的原假设对应的备择假设分别含有符号≠、>或

（3）双侧检验和单侧检验 ①双侧检验

②单侧检验

。备

（4）两类错误与显著性水平 ①弃真错误

α表示。

②取伪错误

当原假设为假时没有拒绝原假设，又称为取伪错误（或纳伪错误），犯此类错

α。，标~N(μ,

σ2

)，即z=

-μ0

σn

~N(0,1)。

第三步：根据显著性水平查表，得出临界值和拒绝域。第四步：得出结论。

大样本（1 （2）总体成数的假设检验（大样本）：检验统计量 z=

（3

（1

（2

（3 F

第8章相关和回归分析

1、基本概念

（1）相关关系

变量之间存在的不确定性数量关系，称为相关关系。

（2）相关系数

2yˆ的平均离差，说明回归方程推算结果的准确程度，其计算公式为估计标准误差是指实际值y与估计值y

Sy=ˆ)(y-y

n-22，简化公式为Sy=∑y2-a∑y-b∑xy

n-2。

相关文章