统计学思考题答案

统计学思考题

一、名词解释

1.参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。所关心的参数主要有总体均值、标准差、总体比例等。总体参数通常用希腊字母表示

2.残差: 因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示。 反映了用估计的回归方程去预测而引起的误差,可用于确定有关误差项ε的假定是否成立

3.标准分数:变量值与其平均数离差除以标准差后的值就是标准分数也称标准化值或z分数。P87

4.次序统计量:一组样本观测值X1,X2,„,Xn由小到大的排序X(1)≤X(2)≤„≤ X

(i)≤„≤ X(n)后,称X(1),X(2),„,X(n)为次序统计量 。中位数、分位数、四

分位数等都是次序统计量

5.β错误:原假设为伪是没有拒绝,犯这种错误的概率用表示,所以也称β错误或取伪错误

6.α错误:原假设为真时拒绝原假设,犯这种错误的概率用α表示,所以也被称为α错误或弃真错误。

7.多元回归方程:描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,„,xk的方程。多元线性回归方程的形式为

E( y ) = β0+ β1 x1 + β2 x2 +„+ βk xk

8.多元回归模型:描述因变量 y 如何依赖于自变量 x1 , x2 ,„, xk 和误差项ε 的方程,称为多元回归模型。 其一般形式为 :

E( y ) = β0+ β1 x1 + β2 x2 +„+ βk xk + ε

9.多重判定系数:是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例。

10.F分布:设随机变量Y与Z相互独立,且Y与Z分别服从于自由度为m和n

2χ的 分布,随机变量X有如下表达式:F=nY/mZ,则称X服从于第一自由度为m,第二自由度为n的F分布,记作X~F(m,n)

11.方差分析:检验各个总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

12.χ2分布:设随机变量X1,X2,„,Xn相互独立,且Xi(i=1,2,„,n)服从标准正态分布N(0,1)则他们的平方和 服从自由度为n的χ2分布。期

望为:E(χ2)=n,方差为:D(χ2)=2n(n为自由度)

13.非平稳序列:是有趋势、季节性和周期性的序列,他可能只含有一种成分也可能含有几种成分的组合。

14.偏态:由统计学家皮尔逊提出,它是对数据分布对称性的测度。测度偏态的统计量是偏态系数,记作SK。偏态系数=0为对称分布,偏态系数> 0为右偏分布,偏态系数

15.峰态:由统计学家皮尔逊提出,它是对数据尖峰或平峰程度的测度即数据分布扁平程度的测度。测度峰态的统计量是峰态系数,记作K。

16.截面数据: 在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况。比如,2005年我国各地区的国内生产总值数据

17.离散系数:标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响。用于对不同组别数据离散程度的比较。 计算公式为

18.列联系数:又称列联相关系数,简称C系数,主要用于大于2×2列联表的情况。

19.判定系数:回归平方和占总误差平方和的比例,记作R2. 反映回归直线对观测数据的拟合程度,取值范围在 [ 0 , 1 ] 之间

20.平均增长率:也称平均增长速度,它是序列中各逐期环比值(也称环比发展速度) 的几何平均数减1后的结果。

21.平稳序列: 基本上不存在趋势的序列.各观察值基本上在某个固定的水平上波动,虽有波动,但并不存在某种规律,而其波动可以看成是随机的

22.趋势:是时间序列在长时间内呈现出来的某种持续向上或持续下降的变动,也称长期趋势。时间序列中的趋势可以是线性的也可以是非线性的。

23.四分位差:反映了中间50%数据的离散程度,也称为内距或四分间距。是对顺序数据离散程度的测度,不受极端值的影响。用于衡量中位数的代表性 上四分位数与下四分位数之差:Qd = QU – QL

24.t分布:高塞特以“Student”(学生)为笔名的论文中首次提出。t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。P140

25.显著性水平:是一个统计专用名词。在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,即假设检验中犯弃真错误的概率。它是由人们根据检验的要求确定的,用α表示。

26.ϕ相关系数:测度2⨯2列联表中数据相关程度。对于2⨯2 列联表,ϕ 系数的

值在0~1之间。列联表中变量的位置可以互换, 的符号没有实际意义,故取绝对值即可

27.异众比率:是对分类数据离散程度的测度,是指非众数组的频数占总频数的比例。 用于衡量众数的代表性

28.中位数:排序后处于中间位置上的值,不受极端值的影响。主要用于顺序数据,也可用数值型数据,但不能用于分类数据

29.众数: 一组数据中出现次数最多的变量值。适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数。主要用于分类数据,也可用于顺序数据和数值型数据

30.最小二乘法:由德国科学家高斯提出,也称最小平方法。它是通过因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。P274

二、简答题

1.统计数据可分为哪几种类型?各有什么特点?

(1)按计量尺度分:

分类数据:只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字来表述。例如,人口按性别分为男、女两类

顺序数据:只能归于某一有序类别的非数字型数据,对事物类别顺序的测度,数据表现为类别,用文字来表述。例如,产品分为一等品、二等品、三等品、次品 数值型数据:按数字尺度测量的观察值,结果表现为具体的数值,对事物的精确测度。例如:身高为175cm、168cm、183

(2)按收集方法分

观测的数据: 通过调查或观测而收集到的数据,在没有对事物人为控制的条件下而得到的。有关社会经济现象的统计数据几乎都是观测数据

实验的数据: 在实验中控制实验对象而收集到的数据。比如,对一种新药疗效的实验,对一种新的农作物品种的实验等。自然科学领域的数据大多数都为实验数据

(3)按时间状况分

截面数据: 在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况。比如,2005年我国各地区的国内生产总值数据

时间序列数据: 在不同时间上收集到的数据,描述现象随时间变化的情况。比如,2000年至2005年国内生产总值数据

2.解释分类数据、顺序数据和数值型数据的含义。

分类数据:只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字来表述。例如,人口按性别分为男、女两类

顺序数据:只能归于某一有序类别的非数字型数据,对事物类别顺序的测度,数据表现为类别,用文字来表述。例如,产品分为一等品、二等品、三等品、次品 数值型数据:按数字尺度测量的观察值,结果表现为具体的数值,对事物的精确测度。例如:身高为175cm、168cm、183

3.变量可分为哪几种类型?

含义:说明现象某种特征的概念。如商品销售额、受教育程度、产品的质量等级等。变量的具体表现称为变量值,即数据

变量的基本分类:

分类变量:说明事物类别的名称。

顺序变量:说明事物有序类别的名称。

数值型变量:说明事物数字特征的名称 。包括:离散变量(取有限个值), 连续变量(可以取无穷多个值)

其他分类:随机变量和非随机变量

经验变量和理论变量,经验变量所描述的是我们周围可以观察到的事物;理论变量则是由统计学家用数学方法所构造出来的一些变量,比如,z 统计量、t 统计量、F 统计量等

4.数据的预处理包括哪些内容?

数据审核:检查数据中的错误

数据筛选:找出符合条件的数据

数据排序:升序和降序,寻找数据的基本特征

数据透视:按需要汇总

5.数值型数据的分组方法有哪些?

有单变量值分组和组距分组两种。

单变量值分组是把每一个变量值作为一组,这种分组通常只适用于离散变量,且变量值较少的情况下使用。组距分组它是将全部变量值依次划分为若干个区间,并将每一个区间的变量值作为一组,适应于连续性变量或变量值较多的情况下。

6.简述组距分组的步骤。

(1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5≤K ≤15

(2)确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即

组距=( 最大值 - 最小值)÷ 组数

(3)统计出各组的频数并整理成频数分布表

7.鉴别图表优劣的准则有哪些?

(1)精心设计、有助于洞察问题的实质

(2)使复杂的观点得到简明、确切、高效的阐述

(3)能在最短的时间内以最少的笔墨给读者提供最大量的信息

(4)是多维的

(5)表述数据的真实情况

8.绘制统计表应注意哪些问题?

(1)合理安排统计表的结构

(2)总标题内容应满足3W 要求

(3)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后

或单列出一列标明

(4)表中的上下两条横线一般用粗线,其他线用细线

(5)通常情况下,统计表的左右两边不封口

(6)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一

(7)对于没有数字的表格单元,一般用“—”表示

(8)必要时可在表的下方加上注释

9.一组数据的分布特征可以从那几个方面进行测度?

数据的分布特征可以从三方面进行测度和描述:一是分布的集中趋势,反映一组数据向其中心值靠拢或聚集的程度:二是分布的离散程度,反映各数据原离其中心值的趋势;三是分布的形状,反映数据分布的峰态和偏态。

10.简述众数、中位数和平均数的特点和应用场所。

众数:不受极端值影响,具有不惟一性。数据分布偏斜程度较大且有明显峰值时应用

中位数:不受极端值影响。数据分布偏斜程度较大时应用

平均数:易受极端值影响,数学性质优良。数据对称分布或接近对称分布时应用

11.简述异众比率、四分位差、方差或标准差的适用场所。

异众比率:是对分类数据离散程度的测度,是指非众数组的频数占总频数的比例。 用于衡量众数的代表性

四分位差:反映了中间50%数据的离散程度,也称为内距或四分间距。是对顺序数据离散程度的测度,不受极端值的影响。用于衡量中位数的代表性

上四分位数与下四分位数之差:Qd = QU – QL

方差或标准差:数据离散程度的最常用测度值,反映了各变量值与均值的平均差异

12.测度数据分布形状的统计量有哪些?

峰态系数和偏态系数

偏态系数:偏态是对数据分布偏斜程度的测度。偏态系数=0为对称分布,偏态系数> 0为右偏分布,偏态系数

峰态系数:峰态是对数据分布扁平程度的测度。峰态系数=0扁平峰度适中,峰态系数0为尖峰分布

13.简述评价估计量好坏的标准。

(1) 无偏性:估计量抽样分布的数学期望等于被估计的总体参数

(2) 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效

(3)一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数

14.简述样本量与置信水平、总体方差、边际误差的关系。

样本量与置信水平成正比。在其他条件不变的情况下,置信水平越大,所需的样本量也就越大。样本量与总体方差成正比,总体的差异越大所要求的样本量也就越大。样本量与估计误差的平方成反比,即可以接受的估计误差的方差越大,所需的样本量就越小。

15.假设检验和参数估计有什么相同点和不同点。

参数估计和假设检验是统计推断的两个组成部分,他们都是利用样本对总体进行某种推断,但推断的角度不同。

参数估记讨论的是用样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。而在假设检验中,则是先对μ的值提出一个假设,然后利用样本信息进行检验这个假设是否成立。

16.什么是假设检验中的两类错误?

第一类错误(弃真错误):原假设为真时拒绝原假设,第一类错误的概率为a,被称为显著性水平

第二类错误(取伪错误):原假设为假时接受原假设,第二类错误的概率为β

17.在单侧检验中原假设和备择假设的方向如何确定?

原假设:待检验的假设,又称“0假设”,表示为 H0 研究者想收集证据予以反

对的假设,总是有等号 =,≤或≥

备择假设:与原假设对立的假设,也称“研究假设”,表示为 H1 研究者想收集

证据予以支持的假设总是有不等号: ≠,

18.方差分析包括哪些类型?它们有何区别?

方差分析是检验多个总体均值是否相等,有单因素方差分析和双因素方差分析两类。单因素方差分析:涉及一个分类的自变量。双因素方差分析:涉及两个分类

的自变量

19.简述方差分析的基本步骤。

方差分析包括提出假设,构造检验的统计量,统计决策等步骤。为检验自变量对因变量是否有显著影响,首先需要提出“两个变量在总体中没有关系”的原假设,然后构造一个用于检验的统计量来检验这一假设是否成立。单因素方差分析与双因素方差分析步骤类似。P251.P240

20.简述相关系数显著性检验的步骤。

(1)提出假设:H0:ρ = 0 ;H1:ρ ≠ 0

(2)计算检验的统计量

(3)确定显著性水平α,并作出决策:若|t|>tα/2,拒绝H0;若|t|

21.解释回归模型、回归方程、估计的回归方程的含义

回归模型:描述因变量 y 如何依赖于自变量 x 和误差项ε的方程称为回归模型 一元线性回归模型可表示为: Y=β0 +β1X +ε

回归方程:描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程。一元线性回归方程的形式如下: E( y ) = β0+ β1 x

估计的回归方程:用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程

22.一元线性回归模型中有哪些基本的假定?

1) 因变量x与自变量y之间具有线性关系

2) 在重复抽样中,自变量x的取值是固定的,即假定x是非随机的

3) 误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的 x

值,y 的期望值为E ( y ) =β 0+ β 1 x

4) 对于所有的 x 值,ε的方差σ2 都相同

5) 误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0 ,σ2 )

23.简述线性关系检验和回归系数检验的具体步骤。

线性关系检验

(1)提出假设: H0:β1=0 线性关系不显著

(2)计算检验统计量F

(3)确定显著性水平α,并根据分子自由度1和分母自由度n-2找出临界值F α

(4)作出决策:若F>F α,拒绝H0;若F

回归系数检验

1) 提出假设

H0: b1 = 0 (没有线性关系

)

H1: b1 ≠ 0 (有线性关系)

2) 计算检验的统计量

3) 确定显著性水平α,并进行决策

⎥ t⎥>tα/2,拒绝H0;⎥ t⎥

24.多重共线性的判别方法主要有哪些?

检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性。具体来说:

(1)模型中各对自变量之间显著相关

(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著

(3)回归系数的正负号与预期的相反

(4)容忍度与方差扩大因子

25.在多元线性回归中,选择自变量的方法有哪些?

变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等

向前选择:不断地向模型中增加自变量,直到增加自变量不能导致SSE的显著增加为止。(这个过程通过F 检验完成)

向后剔除:与向前选择法相反,将自变量从模型中剔除,直到剔除一个自变量不会使SSE显著减小为止(通过F检验的P值来判断)

逐步回归:将向前选择和向后剔除两种方法结合起来筛选自变量的方法。在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除

按照方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少

26.简述时间序列的构成要素。

时间序列同一现象在不同时间上的相继观察值排列而成的数列。构成要素有: 趋势:持续向上或持续下降的状态或规律

季节性:也称季节变动,时间序列在一年内重复出现的周期性波动

周期性:也称循环波动,围绕长期趋势的一种波浪形或振荡式变动

随机性:也称不规则波动,除去趋势、周期性和季节性之后的偶然性波动

27.简述复合型时间序列的预测步骤。

(1)确定并分离季节成分:

计算季节指数,以确定时间序列中的季节成分。将季节成分从时间序列中分离出

去,即用每一个观测值除以相应的季节指数,以消除季节性

(2)建立预测模型并进行预测

对消除季节成分的序列建立适当的预测模型,并根据这一模型进行预测

(3)计算出最后的预测值

用预测值乘以相应的季节指数,得到最终的预测值

三、计算题

第7章 区间估计

1.某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。已知z0.025=1.96。

(1)求总体中赞成该项改革的户数比例的置信区间,置信水平为95%。

(2)如果小区管理者预计赞成的比例能达到80%,估计的边际误差不超过10%,应抽取多少户进行调查?

2.从一个正态总体中随机抽取容量为8 的样本,各样本值分别为:10,8,12,15,6,13,5,11。求总体均值95%的置信区间。 t0.025(7)=2.365。

3.某居民小区为研究职工上班从家里到单位的距离,抽取了由16人组成的一个随机样本,他们到单位的距离(单位:km)分别为:

10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2

假定总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。要求:列表计算,并写出详细计算步骤,其中t0.025(15)=2.131。

4.从两个总体中各抽取一个n1=n2=250的独立随机样本,来自总体1的样本比例为p1=40%,来自总体2的样本比例为p2=30%,请构造π1-π2的95%的置信区间。(z0.025=1.96)

第8章 假设检验

5.已知某炼铁厂的含碳量服从正态分布N(4.55,0.1082),现在测定了9炉铁水,其平均含碳量为4.484。如果估计方差没有变化,可否在显著性水平0.05下认为现在生产的铁水平均含碳量为4.55?(z0.025=1.96)

解:

H0:μ=4.55

H1:μ≠4.55

z=4.484-4.55

0.108/z0.025=1.96

z

不能拒绝原假设,可认为现在生产的铁水平均含碳量为4.55。

6.一种元件,要求其使用寿命不得低于700小时。现从一批这种元件中随机抽取36件,测得其平均使用寿命为680小时。已知该元件寿命服从正态分布,σ=60小时,试在显著性水平0.05下确定这批元件是否合格。(z0.05=1.645) 解:

H0:μ≥700 H1:μ

z=

z0.05680-70060/=1.645=-2

z>z0.05

拒绝原假设。在显著性水平0.05下这批元件不合格。

7.某地区小麦的一般生产水平为亩产250公斤,其标准差为30公斤。现用一种化肥进行试验,从25个小区抽样,平均产量为270公斤。在显著性水平为0.05的情况下,这种化肥是否使小麦增产。(z0.05=1.645)

解:

H0:μ≤250

H1:μ>250

z=

z0.05270-25030/25=1.645=3.33

z>z0.05

拒绝原假设。在显著性水平为0.05的情况下,这种化肥使小麦增产。

8.糖厂用自动打包机打包,每包标准重量是100千克。每天开工后需要检验一次打包机工作是否正常。某日开工后测得9包重量(单位:千克)如下:

99.3 98.7 100.5 101.2 98.3 99.7 99.5 102.1 100.5

已知包重服从正态分布,试在显著性水平为0.05的情况下检验该日打包机工作是否正常?(t0.025(8)=2.306)

解:

H0:μ=100

H1:μ≠100

x=99.978,s=1.2122t=

99.978-1001.2122/9t0.025(8)=2.306t

=-0.054

不拒绝原假设。在显著性水平为0.05的情况下,该日打包机工作正常。 9.某种大量生产的袋装食品,按规定不得少于250克。今从一批该食品中任意抽取50袋,发现有6袋低于250克。若规定不符合标准的比例超过5%就不得出厂,问在显著性水平为0.05的情况下该批食品能否出厂?(z0.05=1.645)

H0:π≤0.05H1:π>0.05p=z=

6

=0.1250

0.12-0.050.05⨯(1-0.05)

50

=1.645

=2.25

z0.05

z>z0.05

拒绝原假设。在显著性水平为0.05的情况下该批食品不能出厂。

10.某厂家在广告中声称,该厂生产的汽车轮胎在正常行驶条件下超过目前的平均水平25000公里。对一个由15个轮胎组成的随机样本做了试验,得到样本的均值和标准差分别为27000公里和5000公里。假定轮胎寿命服从正态分布,问在显著性水平为0.05的情况下该厂家的广告是否真实?(t0.05(14)=1.7613) 解:

H0:μ≥25000

H1:μ

x=27000,s=5000t=

27000-250005000/t0.05(14)=1.7613t

=1.549

拒绝原假设。在显著性水平为0.05的情况下该厂家的广告不真实。

11.某电子元件的寿命(单位:小时)服从正态分布。现测得16只元件的寿命如下:

159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170

问在显著性水平为0.05的情况下是否有理由认为元件的平均使用寿命显著地大

于225小时?(t0.05(15)=1.7531) 解:

H0:μ≤225

H1:μ>225

x=241.6,s=598.7t=

241.6-225598.7/t0.05(15)=1.7531t

=0.1109

不拒绝原假设。在显著性水平为0.05的情况下没有理由认为元件的平均使用寿命显著地大于225小时。

12.随机抽取9个单位,测得结果分别为:

85 59 66 81 35 57 55 63 66 以α=0.05的显著性水平对下述假设进行检验:H0:σ2≤100,H1:σ2>100。(χ20.05(8)=15.5073) 解:

H0:σ2≤100H1:σ>100

2

x=63,s2=215.75

(9-1)⨯215.75

=17.26

100σ2

χ20.05(8)=15.5073

χ=

2

(n-1)s2

=

χ2>χ20.05(8)拒绝原假设。

2

13.A,B两厂生产同样材料。已知其抗压强度服从正态分布,且σA=632,2σB=572。从A厂生产的材料中随机抽取81个样品,测得xA=1070kg/cm2;从

B厂生产的材料中随机抽取64个样品,测得xA=1020kg/cm2。根据以上调查结果,能否在显著性水平为0.05的情况下认为A,B两厂生产的材料平均抗压强度相同?(z0.025=1.96) 解:

H0:μA-μB=0H1:μA-μB≠0

z=

1070-1020-06357

+8164=1.96

2

2

=

50.998

=5.006

z0.025

z>z0.05

拒绝原假设。在显著性水平为0.05的情况下不能认为A,B两厂生产的材料平均抗压强度相同。

14.装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各取12件产品,记录各自的装配时间(单位:分钟)如下:

甲方法: 31 34 29 32 35 38 34 30 29 32 31 26 乙方法: 26 24 28 29 30 29 32 26 31 29 32 28

两总体为正态总体,且方差相同。问在显著性水平为0.05的情况下两种方法的装配时间有无显著差异?(t0.025(22)=2.0739) 解:

H0:μA-μB=0H1:μA-μB≠0

2

xA=31.75,sA=10.2042xB=28.67,sB=6.0612p

22

(12-1)sA+(12-1)sB112.244+66.671178.915s====8.1325

12+12-22222

t=

31.75-26.67-08.1325⨯(

11

+)1212

t0.025(12+12-2)=2.0739t>t0.025(12+12-2)

=

5.08

=4.3631.164

拒绝原假设。在显著性水平为0.05的情况下两种方法的装配时间有显著差异。 15.调查了339名50岁以上的人,其中205名吸烟者中有43个患慢性气管炎,在134名不吸烟者中有13人患慢性气管炎。调查数据能否支持“吸烟者容易患慢性气管炎”这种观点(α=0.05)?(z0.05=1.645) 解:

H0:π1-π2≤0H1:π1-π2>0

4313-)-0z==2.95

43431313⨯(1-)⨯(1-)205205+134134

205134

z0.05=1.645

(

z>z0.05

在0.05显著性水平下拒绝原假设。

调查数据支持“吸烟者容易患慢性气管炎”这种观点。

第9章 列联分析

16.欲研究不同收入群体对某种特定商品是否有相同的购买习惯,市场研究人员调查了四个不同收入组的消费者共527人,购买习惯分为:经常购买,不购买,有时购买。调查结果如下表所示。

项目 低收入组 偏低收入组 偏高收入组 高收入组 经常购买 25 40 47 46 不购买 69 51 74 57 有时购买 36 26 19 37 要求:

(1)提出假设; (2)计算χ2值;

(3)以α=0.1的显著性水平进行检验。 解:

(1)提出假设

H0:π1=π2=π3=π4 低收入组、 偏低收入组、偏高收入组和高收入组的购买习惯相同

H1:π1,π2,π3,π4不完全相等。低收入组、 偏低收入组、偏高收入组和高收入组的购买习惯不完全相同 (2)计算χ2值

期望值计算

RT⨯CT

fe=,故

n

项目 低收入组 偏低收入组 偏高收入组 高收入组

合计 158

fo:25

经常购买

fo:40 fo:47 fo:46

fe:38.975 fe:35.078 fe:41.973 fe:41.973

fo:69

不购买

fo:51 fo:74 fo:57

251

fe:61.917 fe:55.725 fe:66.679 fe:66.679 fo:36

有时购买

fo:26 fo:19 fo:37

118

fe:29.108 fe:26.197 fe:31.347 fe:31.347

合计

130

117

140

140

527

χ2计算表

步骤一

步骤二

步骤三

fo 25 40 47 46 69 51 74 57 36 26 19 37

fe 38.975 35.078 41.973 41.973 61.917 55.725 66.679 66.679 29.108 26.197 31.347 31.347

2

fo-fe -13.975 4.922 5.027 4.027 7.083 -4.725 7.321 -9.679 6.892 -0.197 -12.347 5.653

(fo-fe)2 195.300 24.227 25.271 16.217 50.169 22.326 53.597 93.683 47.500 0.039 152.448 31.956

(fo-fe)2/fe

5.011 0.691 0.602 0.386 0.810 0.401 0.804 1.405 1.632 0.001 4.863 1.019

(fo-fe)2

步骤四 χ=∑=17.626

fe

234(f-n⨯P⨯P)2

(f-f)iji..j2e

χ2=∑0=∑∑=17.626>χ0.1(2⨯3)=10.6446

fen⨯P⨯Pi=1j=1i..j

(3)作出决策:

拒绝原假设。

17.从总体中随机抽取n=200的样本,调查后按不同属性归类,得到如下结果:

n1=28,n2=56,n3=48,n4=36,n5=32,依据经验数据,各类别在总体中的比例分别为:π1=0.1,π2=0.2,π3=0.3,π4=0.2,π5=0.2,以α=0.1的显著性水平进行检验,说明现在情况与经验数据相比是否发生了变化。

解:

(1)提出假设

H0:π1=0.1,π2=0.2,π3=0.3,π4=0.2,π5=0.2。 没有变化 H1:原假设中至少有一个不成立。 有变化 (2)计算χ2值

观察频数 期望频数

(28-0.1⨯200)2(56-0.2⨯200)2(48-0.3⨯200)2

χ=+++

0.1⨯2000.2⨯2000.3⨯200

(36-0.2⨯200)2(32-0.2⨯200)2

+

0.2⨯2000.2⨯200=14

2

第一类 第二类 第三类 第四类 第五类 28 56 48 36 32 200ⅹ200ⅹ200ⅹ200ⅹ200ⅹ0.1=20 0.2=40 0.3=60 0.2=40 0.2=40

P=0.007295

(3)作出决策: 拒绝原假设。

18.某报社关心其读者的阅读习惯是否与其文化程度有关,随机调查了254位读者,得到如下数据: 阅读习惯 大学以上 大学和大专 高中 高中以下 早上看 6 13 14 17 中午看 12 16 8 8 晚上看 38 40 11 6 有空看 21 22 9 13 以0.05的显著性水平检验读者的阅读习惯是否与文化程度有关。 解:

(1)提出假设

H0:阅读习惯与文化程度无关。 H1:阅读习惯与文化程度有关。 (2)计算χ2值 期望值计算

RT⨯CT

fe=,故

n

阅读习惯 大学以上 早上看

fo:6

大学和大专 高中 高中以下

fo:13 fo:14 fo:17

总计 50

fe:15.157 fe:17.913 fe:8.268

中午看

fe:8.661 fo:8 fe:7.622 fo:6

95 44

fo:12 fo:16 fo:8

fe:13.339 fe:15.764 fe:7.276

晚上看

fo:38 fo:40 fo:11

fe:28.799 fe:34.035 fe:15.709 fe:16.457

有空看

fo:21 fo:22 fo:9 fo:13

65

fe:19.705 fe:23.287 fe:10.748 fe:11.260

总计

77

91

42

44

254

χ2计算表

步骤一

步骤二

步骤三

fo 6 12 38 21 13 16 40 22 14 8 11 9 17 8 6 13

fe 15.157 13.339 28.799 19.705 17.913 15.764 34.035 23.287 8.268 7.276 15.709 10.748 8.661 7.622 16.457 11.260

2

fo-fe -9.157 -1.339 9.201 1.295 -4.913 0.236 5.965 -1.287 5.732 0.724 -4.709 -1.748 8.339 0.338 -10.457 1.740

(fo-fe)2 83.851 1.793 84.658 1.677 24.138 0.056 35.581 1.656 32.856 0.524 22.175 3.056 69.539 0.114 109.349 3.028

(fo-fe)2/fe 5.532 0.134 2.940 0.085 1.348 0.004 1.045 0.071 3.974 0.072 1,412 0.284 8.029 0.015 6.645 0.269

(fo-fe)2

步骤四 χ=∑=31.859

fe

(3)作出决策:

(fo-fe)2

χ=∑=31.859

fe

2

χ02.05(3⨯3)=16.919

χ2>χ02.05(3⨯3)

拒绝原假设,认为阅读习惯与文化程度有关。

19.教学改革后学生有了更多的选课自由,但学院领导在安排课程上也面临新问题。例如,MBA研究生班的学生选课学年之间的变化常常很大,去年的学生很多人选会计课,而今年的学生很多人选市场营销课。由于事先无法确定究竟有多少学生选各门课程,所以无法有效地进行教学资源的准备。有人提出学生所选课程与其本科专业所学课程有关。为此,学院领导将学生本科所学专业和MBA三门课程的选修情况做了统计,得到如下结果:

MBA所选课程

本科专业

会计 统计 市场营销

专业一 31 13 16 专业二 8 16 7 专业三 12 10 17 其他专业 10 5 7 要求: (1)以0.05的显著性水平检验学生本科所学专业是否影响其读MBA期间所选课程。

(2)计算列联相关系数。 解: (1)

1)提出假设

H0:π1=π2=π3=π4 不影响 H1:π1,π2,π3,π4不完全相等。影响 2)计算χ2值 期望值计算

RT⨯CT

fe=,故

n 专业一

会计 统计 市场营销

fo:31 fo:13 fo:16

总计 60

fe:24.079 fe:17.368 fe:18.553

专业二

fo:8 fo:16 fo:7 fe:9.586

31

fe:12.441 fe:8.974

专业三

fo:12 fo:10 fo:17

39

fe:15.651 fe:11.289 fe:12.059

其他专业

fo:10 fe:8.829

fo:5 fe:6.368

44

fo:7 fe:6.803

47

22

总计 61 152

χ2计算表

步骤一

步骤二

步骤三

fo 31 8 12 10 13 16 10 5 16 7 17 7

fe 24.079 12.441 15.651 8.829 17.368 8.974 11.289 6.368 18.553 9.586 12.059 6.803

2

fo-fe 6.921 -4.441 -3.651 1.171 -4.368 7.026 -1.289 -1.368 -2.553 -2.586 4.941 0.197

(fo-fe)2 47.900 19.722 13.330 1.371 19.079 49.365 1.662 1.871 6.518 6.687 24.413 0.039

(fo-fe)2/fe

1.989 1.585 0.852 0.155 1.099 5.501 0.147 0.294 0.351 0.698 2.024 0.006

(fo-fe)2

步骤四 χ=∑=14.701

fe

(fo-fe)2

χ=∑=14.701

fe

2

χ02.05(3⨯2)=12.5916

χ2>χ02.05(3⨯2)3)作出决策

拒绝原假设。认为本科专业与MBA选课有关。 (2)c=

第10章 方差分析

20.一家管理咨询公司为不同的客户进行人力资源管理讲座。每次讲座的内容基本上是一致的,但讲座的听课者有时是高级管理者,有时是中级管理者,有时是

χ2χ2+n

=

14.701

=0.0881878=0.297

14.701+152

低级管理者。该咨询公司认为,不同层次的管理者对讲座的满意度是不同的。对听完讲座后随机抽取的不同层次管理者的满意度评分如下(评分标准从1~10,10代表非常满意):

高级管理者 中级管理者 低级管理者

7 8 5 7 9 6 8 8 5 7 10 7 9 9 4

10 8 8 取显著性水平α=0.05,检验管理者的水平不同是否会导致评分的显著性差异?(F0.05(2,16)=3.682) 解:

(1)提出假设

H0:μ1=μ2=μ3=μ4。管理者水平对评分没有显著影响(2)构造检验统计量 1)计算各样本均值

高级管理者

7 7 8 7 9

管理者层次 中级管理者

8 9 8 10 9 10 8

H1:μ1,μ2,μ3,μ4不全相等。管理者水平对评分有显著影响

低级管理者

5 6 5 7 4 8

x1=7.6 x2=8.857 x3=5.833

x=7.5

2)计算各误差平方和

SST=(7-7.5)2+(7-7.5)2+(8-7.5)2+(7-7.5)2+(9-7.5)2+(8-7.5)2+(9-7.5)2

+(8-7.5)2+(10-7.5)2+(9-7.5)2+(10-7.5)2+(8-7.5)2+(5-7.5)2+(6-7.5)2+(5-7.5)2+(7-7.5)2+(4-7.5)2+(8-7.5)2=0.52+0.52+0.52+0.52+1.52+0.52+1.52+0.52+2.52+1.52+2.52+0.52+2.52+1.52+2.52+0.52+30.52+.52=48.5

SSA=5⨯(7.6-7.5)2+7⨯(8.857-7.5)2+6⨯(5.833-7.5)2=5⨯0.12+7⨯1.3572+6⨯1.6672=5⨯0.01+7⨯1.841+6⨯2.779=0.05+12.887+16.674=29.611

SSE=(7-7.6)2+ +(8-8.875)2+ +(5-5.833)2+ =18.890 3)计算统计量

SSA

MSA==14.805

k-1SSE

MSE==1.259

n-kMSAF==11.756

MSE

(3)统计决策

F=11.756>F0.05(2,16)=3.682

拒绝原假设,管理者水平对评分有显著影响。

21.为研究食品的包装和销售地区对其销售量是否有影响,在某周的三个不同地区中用三种不同包装方法进行销售,获得的销售数据如下:

包装方法(B)

销售地区(A)

B1 B2 B3

A1 45 75 30 A2 50 50 40 A3 35 65 50

在显著性水平为α=0.05的条件下,用无交互作用双因素方差分析方法检验不同地区和不同包装方法对该食品的销售量是否有显著影响?(F0.05(2,4)=6.944) 22.为检验广告媒体和广告方案对产品销售量的影响,一家营销公司做了一项实验,考察三种广告方案和两种广告媒体,获得的销售数据如下:

广告媒体

广告方案

报纸 电视 8 12

A

12 8 22 26

B

14 30 10 18

C

18 14

在显著性水平为α=0.05的条件下,检验广告方案、广告媒体或其交互作用对销售量的影响是否显著?(F0.05(2,6)=5.143;F0.05(1,6)=5.987)

11

23.学生在期末考试之前用于复习的时间(单位:h)和考试分数(单位:分)之

间是否有关系?为研究这一问题,一位研究者抽取了由8名学生构成的一个随机

(2)计算相关系数,说明两个变量之间的关系强度。

(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。 24.根据下面数据建立回归方程,计算残差、判定系数R

2,估计标准误差se,并

第12章 多元回归分析

25.飞鸽公司的管理人员认为自行车的销售量依赖于本公司自行车的价格及其竞争对手的价格,并希望建立自行车销售量与该公司自行车价格和竞争厂商自行车

(2)对回归方程的系数作出解释。

(3)预测当飞鸽公司价格为270元,竞争厂商价格为280元时,自行车的销售量。

四、分析题 1.为研究工资水平y与工作年限x1和性别x2之间的关系,在某行业中随机抽取10名职工,得到关于工资水平y、工作年限x1、性别x2的数据,并引入虚拟变量,男性为1,女性为0。EXCEL输出的关于工资水平y、工作年限x1、性别x2的线性回归结果如下:

回归统计

Multiple R R Square Adjusted R Square 标准误差 观测值 方差分析

回归分析 残差 总计

Intercept X Variable 1 X Variable 2

1262.693 314.1267 4.019695 0.005062 519.9019 2005.485

(1)根据上表数据写出回归方程,并进行显著性检验。 (2)说明回归系数的含义。

2.一家公司拥有多家子公司,公司的管理者想通过广告支出来估计销售收入,为此抽取了8家子公司,得到广告支出和销售收入的数据如下(单位:万元)

销售收入y关于广告支出x的回归结果,EXCEL给出如下:

回归统计

Multiple R R Square Adjusted R Square 标准误差 观测值

0.926928 0.859195 0.818964 459.0483

10

df

SS

MS

F

Sig F Lower 95%

Upper 95%

2 9000923 4500461 7 1475077 210725.3 9 10476000

Coefficients 标准误差 t Stat

21.357 0.001048 P-value

930.4954 466.9741 1.992606 0.086558 -173.723 2034.714

387.6161 62.56519 6.195396 0.000447 239.6729 535.5593

0.947663 0.898064 0.881075 108.7575

8

方差分析

回归分析 残差 总计

Intercept X Variable 1

df

1 6 7

-46.2918 15.23977

SS 70969.2

MS

F

Sign-F

625246.3 625246.3 52.86065 0.000344

11828.2

t Stat

P-value

696215.5

Coefficients 标准误差

64.89096 -0.71338 0.502402 2.096101 7.270533 0.000344

(1)写出估计的回归方程。(2)进行拟合优度检验。(3)进行线性关系检验。(4)进行回归系数检验。(5)求广告费为6.1万元的那个子公司销售收入的点估计值。

3.某企业准备用三种方法组装一种新产品,为确定哪种方法每小时生产的产品数量多,随机抽取了30名工人,并指定每个人使用其中一种方法。通过对每个工人生产的产品数进行方差分析得到下面结果: 方差分析表 差异源 SS df MS F P-value F crit 组间 210 0.245946 3.354131 组内 3836 — — — 总计 29 — — — — (1)完成上面的方差分析表。

(2)在显著性水平为α=0.05的条件下,检验三种方法组装的产品数量之间是否有显著差异?

4.某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。通过计算得到下面的有关结果:

(2)汽车销售量的变差中有多少是由广告费用引起的? (3)销售量与广告费用之间的相关系数是多少?

(4)写出估计的回归方程,并解释回归系数的实际意义。

(5)检验线性关系的显著性(α=0.05)。

统计学思考题

一、名词解释

1.参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。所关心的参数主要有总体均值、标准差、总体比例等。总体参数通常用希腊字母表示

2.残差: 因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示。 反映了用估计的回归方程去预测而引起的误差,可用于确定有关误差项ε的假定是否成立

3.标准分数:变量值与其平均数离差除以标准差后的值就是标准分数也称标准化值或z分数。P87

4.次序统计量:一组样本观测值X1,X2,„,Xn由小到大的排序X(1)≤X(2)≤„≤ X

(i)≤„≤ X(n)后,称X(1),X(2),„,X(n)为次序统计量 。中位数、分位数、四

分位数等都是次序统计量

5.β错误:原假设为伪是没有拒绝,犯这种错误的概率用表示,所以也称β错误或取伪错误

6.α错误:原假设为真时拒绝原假设,犯这种错误的概率用α表示,所以也被称为α错误或弃真错误。

7.多元回归方程:描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,„,xk的方程。多元线性回归方程的形式为

E( y ) = β0+ β1 x1 + β2 x2 +„+ βk xk

8.多元回归模型:描述因变量 y 如何依赖于自变量 x1 , x2 ,„, xk 和误差项ε 的方程,称为多元回归模型。 其一般形式为 :

E( y ) = β0+ β1 x1 + β2 x2 +„+ βk xk + ε

9.多重判定系数:是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例。

10.F分布:设随机变量Y与Z相互独立,且Y与Z分别服从于自由度为m和n

2χ的 分布,随机变量X有如下表达式:F=nY/mZ,则称X服从于第一自由度为m,第二自由度为n的F分布,记作X~F(m,n)

11.方差分析:检验各个总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

12.χ2分布:设随机变量X1,X2,„,Xn相互独立,且Xi(i=1,2,„,n)服从标准正态分布N(0,1)则他们的平方和 服从自由度为n的χ2分布。期

望为:E(χ2)=n,方差为:D(χ2)=2n(n为自由度)

13.非平稳序列:是有趋势、季节性和周期性的序列,他可能只含有一种成分也可能含有几种成分的组合。

14.偏态:由统计学家皮尔逊提出,它是对数据分布对称性的测度。测度偏态的统计量是偏态系数,记作SK。偏态系数=0为对称分布,偏态系数> 0为右偏分布,偏态系数

15.峰态:由统计学家皮尔逊提出,它是对数据尖峰或平峰程度的测度即数据分布扁平程度的测度。测度峰态的统计量是峰态系数,记作K。

16.截面数据: 在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况。比如,2005年我国各地区的国内生产总值数据

17.离散系数:标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响。用于对不同组别数据离散程度的比较。 计算公式为

18.列联系数:又称列联相关系数,简称C系数,主要用于大于2×2列联表的情况。

19.判定系数:回归平方和占总误差平方和的比例,记作R2. 反映回归直线对观测数据的拟合程度,取值范围在 [ 0 , 1 ] 之间

20.平均增长率:也称平均增长速度,它是序列中各逐期环比值(也称环比发展速度) 的几何平均数减1后的结果。

21.平稳序列: 基本上不存在趋势的序列.各观察值基本上在某个固定的水平上波动,虽有波动,但并不存在某种规律,而其波动可以看成是随机的

22.趋势:是时间序列在长时间内呈现出来的某种持续向上或持续下降的变动,也称长期趋势。时间序列中的趋势可以是线性的也可以是非线性的。

23.四分位差:反映了中间50%数据的离散程度,也称为内距或四分间距。是对顺序数据离散程度的测度,不受极端值的影响。用于衡量中位数的代表性 上四分位数与下四分位数之差:Qd = QU – QL

24.t分布:高塞特以“Student”(学生)为笔名的论文中首次提出。t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。P140

25.显著性水平:是一个统计专用名词。在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,即假设检验中犯弃真错误的概率。它是由人们根据检验的要求确定的,用α表示。

26.ϕ相关系数:测度2⨯2列联表中数据相关程度。对于2⨯2 列联表,ϕ 系数的

值在0~1之间。列联表中变量的位置可以互换, 的符号没有实际意义,故取绝对值即可

27.异众比率:是对分类数据离散程度的测度,是指非众数组的频数占总频数的比例。 用于衡量众数的代表性

28.中位数:排序后处于中间位置上的值,不受极端值的影响。主要用于顺序数据,也可用数值型数据,但不能用于分类数据

29.众数: 一组数据中出现次数最多的变量值。适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数。主要用于分类数据,也可用于顺序数据和数值型数据

30.最小二乘法:由德国科学家高斯提出,也称最小平方法。它是通过因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。P274

二、简答题

1.统计数据可分为哪几种类型?各有什么特点?

(1)按计量尺度分:

分类数据:只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字来表述。例如,人口按性别分为男、女两类

顺序数据:只能归于某一有序类别的非数字型数据,对事物类别顺序的测度,数据表现为类别,用文字来表述。例如,产品分为一等品、二等品、三等品、次品 数值型数据:按数字尺度测量的观察值,结果表现为具体的数值,对事物的精确测度。例如:身高为175cm、168cm、183

(2)按收集方法分

观测的数据: 通过调查或观测而收集到的数据,在没有对事物人为控制的条件下而得到的。有关社会经济现象的统计数据几乎都是观测数据

实验的数据: 在实验中控制实验对象而收集到的数据。比如,对一种新药疗效的实验,对一种新的农作物品种的实验等。自然科学领域的数据大多数都为实验数据

(3)按时间状况分

截面数据: 在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况。比如,2005年我国各地区的国内生产总值数据

时间序列数据: 在不同时间上收集到的数据,描述现象随时间变化的情况。比如,2000年至2005年国内生产总值数据

2.解释分类数据、顺序数据和数值型数据的含义。

分类数据:只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字来表述。例如,人口按性别分为男、女两类

顺序数据:只能归于某一有序类别的非数字型数据,对事物类别顺序的测度,数据表现为类别,用文字来表述。例如,产品分为一等品、二等品、三等品、次品 数值型数据:按数字尺度测量的观察值,结果表现为具体的数值,对事物的精确测度。例如:身高为175cm、168cm、183

3.变量可分为哪几种类型?

含义:说明现象某种特征的概念。如商品销售额、受教育程度、产品的质量等级等。变量的具体表现称为变量值,即数据

变量的基本分类:

分类变量:说明事物类别的名称。

顺序变量:说明事物有序类别的名称。

数值型变量:说明事物数字特征的名称 。包括:离散变量(取有限个值), 连续变量(可以取无穷多个值)

其他分类:随机变量和非随机变量

经验变量和理论变量,经验变量所描述的是我们周围可以观察到的事物;理论变量则是由统计学家用数学方法所构造出来的一些变量,比如,z 统计量、t 统计量、F 统计量等

4.数据的预处理包括哪些内容?

数据审核:检查数据中的错误

数据筛选:找出符合条件的数据

数据排序:升序和降序,寻找数据的基本特征

数据透视:按需要汇总

5.数值型数据的分组方法有哪些?

有单变量值分组和组距分组两种。

单变量值分组是把每一个变量值作为一组,这种分组通常只适用于离散变量,且变量值较少的情况下使用。组距分组它是将全部变量值依次划分为若干个区间,并将每一个区间的变量值作为一组,适应于连续性变量或变量值较多的情况下。

6.简述组距分组的步骤。

(1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5≤K ≤15

(2)确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即

组距=( 最大值 - 最小值)÷ 组数

(3)统计出各组的频数并整理成频数分布表

7.鉴别图表优劣的准则有哪些?

(1)精心设计、有助于洞察问题的实质

(2)使复杂的观点得到简明、确切、高效的阐述

(3)能在最短的时间内以最少的笔墨给读者提供最大量的信息

(4)是多维的

(5)表述数据的真实情况

8.绘制统计表应注意哪些问题?

(1)合理安排统计表的结构

(2)总标题内容应满足3W 要求

(3)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后

或单列出一列标明

(4)表中的上下两条横线一般用粗线,其他线用细线

(5)通常情况下,统计表的左右两边不封口

(6)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一

(7)对于没有数字的表格单元,一般用“—”表示

(8)必要时可在表的下方加上注释

9.一组数据的分布特征可以从那几个方面进行测度?

数据的分布特征可以从三方面进行测度和描述:一是分布的集中趋势,反映一组数据向其中心值靠拢或聚集的程度:二是分布的离散程度,反映各数据原离其中心值的趋势;三是分布的形状,反映数据分布的峰态和偏态。

10.简述众数、中位数和平均数的特点和应用场所。

众数:不受极端值影响,具有不惟一性。数据分布偏斜程度较大且有明显峰值时应用

中位数:不受极端值影响。数据分布偏斜程度较大时应用

平均数:易受极端值影响,数学性质优良。数据对称分布或接近对称分布时应用

11.简述异众比率、四分位差、方差或标准差的适用场所。

异众比率:是对分类数据离散程度的测度,是指非众数组的频数占总频数的比例。 用于衡量众数的代表性

四分位差:反映了中间50%数据的离散程度,也称为内距或四分间距。是对顺序数据离散程度的测度,不受极端值的影响。用于衡量中位数的代表性

上四分位数与下四分位数之差:Qd = QU – QL

方差或标准差:数据离散程度的最常用测度值,反映了各变量值与均值的平均差异

12.测度数据分布形状的统计量有哪些?

峰态系数和偏态系数

偏态系数:偏态是对数据分布偏斜程度的测度。偏态系数=0为对称分布,偏态系数> 0为右偏分布,偏态系数

峰态系数:峰态是对数据分布扁平程度的测度。峰态系数=0扁平峰度适中,峰态系数0为尖峰分布

13.简述评价估计量好坏的标准。

(1) 无偏性:估计量抽样分布的数学期望等于被估计的总体参数

(2) 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效

(3)一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数

14.简述样本量与置信水平、总体方差、边际误差的关系。

样本量与置信水平成正比。在其他条件不变的情况下,置信水平越大,所需的样本量也就越大。样本量与总体方差成正比,总体的差异越大所要求的样本量也就越大。样本量与估计误差的平方成反比,即可以接受的估计误差的方差越大,所需的样本量就越小。

15.假设检验和参数估计有什么相同点和不同点。

参数估计和假设检验是统计推断的两个组成部分,他们都是利用样本对总体进行某种推断,但推断的角度不同。

参数估记讨论的是用样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。而在假设检验中,则是先对μ的值提出一个假设,然后利用样本信息进行检验这个假设是否成立。

16.什么是假设检验中的两类错误?

第一类错误(弃真错误):原假设为真时拒绝原假设,第一类错误的概率为a,被称为显著性水平

第二类错误(取伪错误):原假设为假时接受原假设,第二类错误的概率为β

17.在单侧检验中原假设和备择假设的方向如何确定?

原假设:待检验的假设,又称“0假设”,表示为 H0 研究者想收集证据予以反

对的假设,总是有等号 =,≤或≥

备择假设:与原假设对立的假设,也称“研究假设”,表示为 H1 研究者想收集

证据予以支持的假设总是有不等号: ≠,

18.方差分析包括哪些类型?它们有何区别?

方差分析是检验多个总体均值是否相等,有单因素方差分析和双因素方差分析两类。单因素方差分析:涉及一个分类的自变量。双因素方差分析:涉及两个分类

的自变量

19.简述方差分析的基本步骤。

方差分析包括提出假设,构造检验的统计量,统计决策等步骤。为检验自变量对因变量是否有显著影响,首先需要提出“两个变量在总体中没有关系”的原假设,然后构造一个用于检验的统计量来检验这一假设是否成立。单因素方差分析与双因素方差分析步骤类似。P251.P240

20.简述相关系数显著性检验的步骤。

(1)提出假设:H0:ρ = 0 ;H1:ρ ≠ 0

(2)计算检验的统计量

(3)确定显著性水平α,并作出决策:若|t|>tα/2,拒绝H0;若|t|

21.解释回归模型、回归方程、估计的回归方程的含义

回归模型:描述因变量 y 如何依赖于自变量 x 和误差项ε的方程称为回归模型 一元线性回归模型可表示为: Y=β0 +β1X +ε

回归方程:描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程。一元线性回归方程的形式如下: E( y ) = β0+ β1 x

估计的回归方程:用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程

22.一元线性回归模型中有哪些基本的假定?

1) 因变量x与自变量y之间具有线性关系

2) 在重复抽样中,自变量x的取值是固定的,即假定x是非随机的

3) 误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的 x

值,y 的期望值为E ( y ) =β 0+ β 1 x

4) 对于所有的 x 值,ε的方差σ2 都相同

5) 误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0 ,σ2 )

23.简述线性关系检验和回归系数检验的具体步骤。

线性关系检验

(1)提出假设: H0:β1=0 线性关系不显著

(2)计算检验统计量F

(3)确定显著性水平α,并根据分子自由度1和分母自由度n-2找出临界值F α

(4)作出决策:若F>F α,拒绝H0;若F

回归系数检验

1) 提出假设

H0: b1 = 0 (没有线性关系

)

H1: b1 ≠ 0 (有线性关系)

2) 计算检验的统计量

3) 确定显著性水平α,并进行决策

⎥ t⎥>tα/2,拒绝H0;⎥ t⎥

24.多重共线性的判别方法主要有哪些?

检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性。具体来说:

(1)模型中各对自变量之间显著相关

(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著

(3)回归系数的正负号与预期的相反

(4)容忍度与方差扩大因子

25.在多元线性回归中,选择自变量的方法有哪些?

变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等

向前选择:不断地向模型中增加自变量,直到增加自变量不能导致SSE的显著增加为止。(这个过程通过F 检验完成)

向后剔除:与向前选择法相反,将自变量从模型中剔除,直到剔除一个自变量不会使SSE显著减小为止(通过F检验的P值来判断)

逐步回归:将向前选择和向后剔除两种方法结合起来筛选自变量的方法。在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除

按照方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少

26.简述时间序列的构成要素。

时间序列同一现象在不同时间上的相继观察值排列而成的数列。构成要素有: 趋势:持续向上或持续下降的状态或规律

季节性:也称季节变动,时间序列在一年内重复出现的周期性波动

周期性:也称循环波动,围绕长期趋势的一种波浪形或振荡式变动

随机性:也称不规则波动,除去趋势、周期性和季节性之后的偶然性波动

27.简述复合型时间序列的预测步骤。

(1)确定并分离季节成分:

计算季节指数,以确定时间序列中的季节成分。将季节成分从时间序列中分离出

去,即用每一个观测值除以相应的季节指数,以消除季节性

(2)建立预测模型并进行预测

对消除季节成分的序列建立适当的预测模型,并根据这一模型进行预测

(3)计算出最后的预测值

用预测值乘以相应的季节指数,得到最终的预测值

三、计算题

第7章 区间估计

1.某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。已知z0.025=1.96。

(1)求总体中赞成该项改革的户数比例的置信区间,置信水平为95%。

(2)如果小区管理者预计赞成的比例能达到80%,估计的边际误差不超过10%,应抽取多少户进行调查?

2.从一个正态总体中随机抽取容量为8 的样本,各样本值分别为:10,8,12,15,6,13,5,11。求总体均值95%的置信区间。 t0.025(7)=2.365。

3.某居民小区为研究职工上班从家里到单位的距离,抽取了由16人组成的一个随机样本,他们到单位的距离(单位:km)分别为:

10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2

假定总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。要求:列表计算,并写出详细计算步骤,其中t0.025(15)=2.131。

4.从两个总体中各抽取一个n1=n2=250的独立随机样本,来自总体1的样本比例为p1=40%,来自总体2的样本比例为p2=30%,请构造π1-π2的95%的置信区间。(z0.025=1.96)

第8章 假设检验

5.已知某炼铁厂的含碳量服从正态分布N(4.55,0.1082),现在测定了9炉铁水,其平均含碳量为4.484。如果估计方差没有变化,可否在显著性水平0.05下认为现在生产的铁水平均含碳量为4.55?(z0.025=1.96)

解:

H0:μ=4.55

H1:μ≠4.55

z=4.484-4.55

0.108/z0.025=1.96

z

不能拒绝原假设,可认为现在生产的铁水平均含碳量为4.55。

6.一种元件,要求其使用寿命不得低于700小时。现从一批这种元件中随机抽取36件,测得其平均使用寿命为680小时。已知该元件寿命服从正态分布,σ=60小时,试在显著性水平0.05下确定这批元件是否合格。(z0.05=1.645) 解:

H0:μ≥700 H1:μ

z=

z0.05680-70060/=1.645=-2

z>z0.05

拒绝原假设。在显著性水平0.05下这批元件不合格。

7.某地区小麦的一般生产水平为亩产250公斤,其标准差为30公斤。现用一种化肥进行试验,从25个小区抽样,平均产量为270公斤。在显著性水平为0.05的情况下,这种化肥是否使小麦增产。(z0.05=1.645)

解:

H0:μ≤250

H1:μ>250

z=

z0.05270-25030/25=1.645=3.33

z>z0.05

拒绝原假设。在显著性水平为0.05的情况下,这种化肥使小麦增产。

8.糖厂用自动打包机打包,每包标准重量是100千克。每天开工后需要检验一次打包机工作是否正常。某日开工后测得9包重量(单位:千克)如下:

99.3 98.7 100.5 101.2 98.3 99.7 99.5 102.1 100.5

已知包重服从正态分布,试在显著性水平为0.05的情况下检验该日打包机工作是否正常?(t0.025(8)=2.306)

解:

H0:μ=100

H1:μ≠100

x=99.978,s=1.2122t=

99.978-1001.2122/9t0.025(8)=2.306t

=-0.054

不拒绝原假设。在显著性水平为0.05的情况下,该日打包机工作正常。 9.某种大量生产的袋装食品,按规定不得少于250克。今从一批该食品中任意抽取50袋,发现有6袋低于250克。若规定不符合标准的比例超过5%就不得出厂,问在显著性水平为0.05的情况下该批食品能否出厂?(z0.05=1.645)

H0:π≤0.05H1:π>0.05p=z=

6

=0.1250

0.12-0.050.05⨯(1-0.05)

50

=1.645

=2.25

z0.05

z>z0.05

拒绝原假设。在显著性水平为0.05的情况下该批食品不能出厂。

10.某厂家在广告中声称,该厂生产的汽车轮胎在正常行驶条件下超过目前的平均水平25000公里。对一个由15个轮胎组成的随机样本做了试验,得到样本的均值和标准差分别为27000公里和5000公里。假定轮胎寿命服从正态分布,问在显著性水平为0.05的情况下该厂家的广告是否真实?(t0.05(14)=1.7613) 解:

H0:μ≥25000

H1:μ

x=27000,s=5000t=

27000-250005000/t0.05(14)=1.7613t

=1.549

拒绝原假设。在显著性水平为0.05的情况下该厂家的广告不真实。

11.某电子元件的寿命(单位:小时)服从正态分布。现测得16只元件的寿命如下:

159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170

问在显著性水平为0.05的情况下是否有理由认为元件的平均使用寿命显著地大

于225小时?(t0.05(15)=1.7531) 解:

H0:μ≤225

H1:μ>225

x=241.6,s=598.7t=

241.6-225598.7/t0.05(15)=1.7531t

=0.1109

不拒绝原假设。在显著性水平为0.05的情况下没有理由认为元件的平均使用寿命显著地大于225小时。

12.随机抽取9个单位,测得结果分别为:

85 59 66 81 35 57 55 63 66 以α=0.05的显著性水平对下述假设进行检验:H0:σ2≤100,H1:σ2>100。(χ20.05(8)=15.5073) 解:

H0:σ2≤100H1:σ>100

2

x=63,s2=215.75

(9-1)⨯215.75

=17.26

100σ2

χ20.05(8)=15.5073

χ=

2

(n-1)s2

=

χ2>χ20.05(8)拒绝原假设。

2

13.A,B两厂生产同样材料。已知其抗压强度服从正态分布,且σA=632,2σB=572。从A厂生产的材料中随机抽取81个样品,测得xA=1070kg/cm2;从

B厂生产的材料中随机抽取64个样品,测得xA=1020kg/cm2。根据以上调查结果,能否在显著性水平为0.05的情况下认为A,B两厂生产的材料平均抗压强度相同?(z0.025=1.96) 解:

H0:μA-μB=0H1:μA-μB≠0

z=

1070-1020-06357

+8164=1.96

2

2

=

50.998

=5.006

z0.025

z>z0.05

拒绝原假设。在显著性水平为0.05的情况下不能认为A,B两厂生产的材料平均抗压强度相同。

14.装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各取12件产品,记录各自的装配时间(单位:分钟)如下:

甲方法: 31 34 29 32 35 38 34 30 29 32 31 26 乙方法: 26 24 28 29 30 29 32 26 31 29 32 28

两总体为正态总体,且方差相同。问在显著性水平为0.05的情况下两种方法的装配时间有无显著差异?(t0.025(22)=2.0739) 解:

H0:μA-μB=0H1:μA-μB≠0

2

xA=31.75,sA=10.2042xB=28.67,sB=6.0612p

22

(12-1)sA+(12-1)sB112.244+66.671178.915s====8.1325

12+12-22222

t=

31.75-26.67-08.1325⨯(

11

+)1212

t0.025(12+12-2)=2.0739t>t0.025(12+12-2)

=

5.08

=4.3631.164

拒绝原假设。在显著性水平为0.05的情况下两种方法的装配时间有显著差异。 15.调查了339名50岁以上的人,其中205名吸烟者中有43个患慢性气管炎,在134名不吸烟者中有13人患慢性气管炎。调查数据能否支持“吸烟者容易患慢性气管炎”这种观点(α=0.05)?(z0.05=1.645) 解:

H0:π1-π2≤0H1:π1-π2>0

4313-)-0z==2.95

43431313⨯(1-)⨯(1-)205205+134134

205134

z0.05=1.645

(

z>z0.05

在0.05显著性水平下拒绝原假设。

调查数据支持“吸烟者容易患慢性气管炎”这种观点。

第9章 列联分析

16.欲研究不同收入群体对某种特定商品是否有相同的购买习惯,市场研究人员调查了四个不同收入组的消费者共527人,购买习惯分为:经常购买,不购买,有时购买。调查结果如下表所示。

项目 低收入组 偏低收入组 偏高收入组 高收入组 经常购买 25 40 47 46 不购买 69 51 74 57 有时购买 36 26 19 37 要求:

(1)提出假设; (2)计算χ2值;

(3)以α=0.1的显著性水平进行检验。 解:

(1)提出假设

H0:π1=π2=π3=π4 低收入组、 偏低收入组、偏高收入组和高收入组的购买习惯相同

H1:π1,π2,π3,π4不完全相等。低收入组、 偏低收入组、偏高收入组和高收入组的购买习惯不完全相同 (2)计算χ2值

期望值计算

RT⨯CT

fe=,故

n

项目 低收入组 偏低收入组 偏高收入组 高收入组

合计 158

fo:25

经常购买

fo:40 fo:47 fo:46

fe:38.975 fe:35.078 fe:41.973 fe:41.973

fo:69

不购买

fo:51 fo:74 fo:57

251

fe:61.917 fe:55.725 fe:66.679 fe:66.679 fo:36

有时购买

fo:26 fo:19 fo:37

118

fe:29.108 fe:26.197 fe:31.347 fe:31.347

合计

130

117

140

140

527

χ2计算表

步骤一

步骤二

步骤三

fo 25 40 47 46 69 51 74 57 36 26 19 37

fe 38.975 35.078 41.973 41.973 61.917 55.725 66.679 66.679 29.108 26.197 31.347 31.347

2

fo-fe -13.975 4.922 5.027 4.027 7.083 -4.725 7.321 -9.679 6.892 -0.197 -12.347 5.653

(fo-fe)2 195.300 24.227 25.271 16.217 50.169 22.326 53.597 93.683 47.500 0.039 152.448 31.956

(fo-fe)2/fe

5.011 0.691 0.602 0.386 0.810 0.401 0.804 1.405 1.632 0.001 4.863 1.019

(fo-fe)2

步骤四 χ=∑=17.626

fe

234(f-n⨯P⨯P)2

(f-f)iji..j2e

χ2=∑0=∑∑=17.626>χ0.1(2⨯3)=10.6446

fen⨯P⨯Pi=1j=1i..j

(3)作出决策:

拒绝原假设。

17.从总体中随机抽取n=200的样本,调查后按不同属性归类,得到如下结果:

n1=28,n2=56,n3=48,n4=36,n5=32,依据经验数据,各类别在总体中的比例分别为:π1=0.1,π2=0.2,π3=0.3,π4=0.2,π5=0.2,以α=0.1的显著性水平进行检验,说明现在情况与经验数据相比是否发生了变化。

解:

(1)提出假设

H0:π1=0.1,π2=0.2,π3=0.3,π4=0.2,π5=0.2。 没有变化 H1:原假设中至少有一个不成立。 有变化 (2)计算χ2值

观察频数 期望频数

(28-0.1⨯200)2(56-0.2⨯200)2(48-0.3⨯200)2

χ=+++

0.1⨯2000.2⨯2000.3⨯200

(36-0.2⨯200)2(32-0.2⨯200)2

+

0.2⨯2000.2⨯200=14

2

第一类 第二类 第三类 第四类 第五类 28 56 48 36 32 200ⅹ200ⅹ200ⅹ200ⅹ200ⅹ0.1=20 0.2=40 0.3=60 0.2=40 0.2=40

P=0.007295

(3)作出决策: 拒绝原假设。

18.某报社关心其读者的阅读习惯是否与其文化程度有关,随机调查了254位读者,得到如下数据: 阅读习惯 大学以上 大学和大专 高中 高中以下 早上看 6 13 14 17 中午看 12 16 8 8 晚上看 38 40 11 6 有空看 21 22 9 13 以0.05的显著性水平检验读者的阅读习惯是否与文化程度有关。 解:

(1)提出假设

H0:阅读习惯与文化程度无关。 H1:阅读习惯与文化程度有关。 (2)计算χ2值 期望值计算

RT⨯CT

fe=,故

n

阅读习惯 大学以上 早上看

fo:6

大学和大专 高中 高中以下

fo:13 fo:14 fo:17

总计 50

fe:15.157 fe:17.913 fe:8.268

中午看

fe:8.661 fo:8 fe:7.622 fo:6

95 44

fo:12 fo:16 fo:8

fe:13.339 fe:15.764 fe:7.276

晚上看

fo:38 fo:40 fo:11

fe:28.799 fe:34.035 fe:15.709 fe:16.457

有空看

fo:21 fo:22 fo:9 fo:13

65

fe:19.705 fe:23.287 fe:10.748 fe:11.260

总计

77

91

42

44

254

χ2计算表

步骤一

步骤二

步骤三

fo 6 12 38 21 13 16 40 22 14 8 11 9 17 8 6 13

fe 15.157 13.339 28.799 19.705 17.913 15.764 34.035 23.287 8.268 7.276 15.709 10.748 8.661 7.622 16.457 11.260

2

fo-fe -9.157 -1.339 9.201 1.295 -4.913 0.236 5.965 -1.287 5.732 0.724 -4.709 -1.748 8.339 0.338 -10.457 1.740

(fo-fe)2 83.851 1.793 84.658 1.677 24.138 0.056 35.581 1.656 32.856 0.524 22.175 3.056 69.539 0.114 109.349 3.028

(fo-fe)2/fe 5.532 0.134 2.940 0.085 1.348 0.004 1.045 0.071 3.974 0.072 1,412 0.284 8.029 0.015 6.645 0.269

(fo-fe)2

步骤四 χ=∑=31.859

fe

(3)作出决策:

(fo-fe)2

χ=∑=31.859

fe

2

χ02.05(3⨯3)=16.919

χ2>χ02.05(3⨯3)

拒绝原假设,认为阅读习惯与文化程度有关。

19.教学改革后学生有了更多的选课自由,但学院领导在安排课程上也面临新问题。例如,MBA研究生班的学生选课学年之间的变化常常很大,去年的学生很多人选会计课,而今年的学生很多人选市场营销课。由于事先无法确定究竟有多少学生选各门课程,所以无法有效地进行教学资源的准备。有人提出学生所选课程与其本科专业所学课程有关。为此,学院领导将学生本科所学专业和MBA三门课程的选修情况做了统计,得到如下结果:

MBA所选课程

本科专业

会计 统计 市场营销

专业一 31 13 16 专业二 8 16 7 专业三 12 10 17 其他专业 10 5 7 要求: (1)以0.05的显著性水平检验学生本科所学专业是否影响其读MBA期间所选课程。

(2)计算列联相关系数。 解: (1)

1)提出假设

H0:π1=π2=π3=π4 不影响 H1:π1,π2,π3,π4不完全相等。影响 2)计算χ2值 期望值计算

RT⨯CT

fe=,故

n 专业一

会计 统计 市场营销

fo:31 fo:13 fo:16

总计 60

fe:24.079 fe:17.368 fe:18.553

专业二

fo:8 fo:16 fo:7 fe:9.586

31

fe:12.441 fe:8.974

专业三

fo:12 fo:10 fo:17

39

fe:15.651 fe:11.289 fe:12.059

其他专业

fo:10 fe:8.829

fo:5 fe:6.368

44

fo:7 fe:6.803

47

22

总计 61 152

χ2计算表

步骤一

步骤二

步骤三

fo 31 8 12 10 13 16 10 5 16 7 17 7

fe 24.079 12.441 15.651 8.829 17.368 8.974 11.289 6.368 18.553 9.586 12.059 6.803

2

fo-fe 6.921 -4.441 -3.651 1.171 -4.368 7.026 -1.289 -1.368 -2.553 -2.586 4.941 0.197

(fo-fe)2 47.900 19.722 13.330 1.371 19.079 49.365 1.662 1.871 6.518 6.687 24.413 0.039

(fo-fe)2/fe

1.989 1.585 0.852 0.155 1.099 5.501 0.147 0.294 0.351 0.698 2.024 0.006

(fo-fe)2

步骤四 χ=∑=14.701

fe

(fo-fe)2

χ=∑=14.701

fe

2

χ02.05(3⨯2)=12.5916

χ2>χ02.05(3⨯2)3)作出决策

拒绝原假设。认为本科专业与MBA选课有关。 (2)c=

第10章 方差分析

20.一家管理咨询公司为不同的客户进行人力资源管理讲座。每次讲座的内容基本上是一致的,但讲座的听课者有时是高级管理者,有时是中级管理者,有时是

χ2χ2+n

=

14.701

=0.0881878=0.297

14.701+152

低级管理者。该咨询公司认为,不同层次的管理者对讲座的满意度是不同的。对听完讲座后随机抽取的不同层次管理者的满意度评分如下(评分标准从1~10,10代表非常满意):

高级管理者 中级管理者 低级管理者

7 8 5 7 9 6 8 8 5 7 10 7 9 9 4

10 8 8 取显著性水平α=0.05,检验管理者的水平不同是否会导致评分的显著性差异?(F0.05(2,16)=3.682) 解:

(1)提出假设

H0:μ1=μ2=μ3=μ4。管理者水平对评分没有显著影响(2)构造检验统计量 1)计算各样本均值

高级管理者

7 7 8 7 9

管理者层次 中级管理者

8 9 8 10 9 10 8

H1:μ1,μ2,μ3,μ4不全相等。管理者水平对评分有显著影响

低级管理者

5 6 5 7 4 8

x1=7.6 x2=8.857 x3=5.833

x=7.5

2)计算各误差平方和

SST=(7-7.5)2+(7-7.5)2+(8-7.5)2+(7-7.5)2+(9-7.5)2+(8-7.5)2+(9-7.5)2

+(8-7.5)2+(10-7.5)2+(9-7.5)2+(10-7.5)2+(8-7.5)2+(5-7.5)2+(6-7.5)2+(5-7.5)2+(7-7.5)2+(4-7.5)2+(8-7.5)2=0.52+0.52+0.52+0.52+1.52+0.52+1.52+0.52+2.52+1.52+2.52+0.52+2.52+1.52+2.52+0.52+30.52+.52=48.5

SSA=5⨯(7.6-7.5)2+7⨯(8.857-7.5)2+6⨯(5.833-7.5)2=5⨯0.12+7⨯1.3572+6⨯1.6672=5⨯0.01+7⨯1.841+6⨯2.779=0.05+12.887+16.674=29.611

SSE=(7-7.6)2+ +(8-8.875)2+ +(5-5.833)2+ =18.890 3)计算统计量

SSA

MSA==14.805

k-1SSE

MSE==1.259

n-kMSAF==11.756

MSE

(3)统计决策

F=11.756>F0.05(2,16)=3.682

拒绝原假设,管理者水平对评分有显著影响。

21.为研究食品的包装和销售地区对其销售量是否有影响,在某周的三个不同地区中用三种不同包装方法进行销售,获得的销售数据如下:

包装方法(B)

销售地区(A)

B1 B2 B3

A1 45 75 30 A2 50 50 40 A3 35 65 50

在显著性水平为α=0.05的条件下,用无交互作用双因素方差分析方法检验不同地区和不同包装方法对该食品的销售量是否有显著影响?(F0.05(2,4)=6.944) 22.为检验广告媒体和广告方案对产品销售量的影响,一家营销公司做了一项实验,考察三种广告方案和两种广告媒体,获得的销售数据如下:

广告媒体

广告方案

报纸 电视 8 12

A

12 8 22 26

B

14 30 10 18

C

18 14

在显著性水平为α=0.05的条件下,检验广告方案、广告媒体或其交互作用对销售量的影响是否显著?(F0.05(2,6)=5.143;F0.05(1,6)=5.987)

11

23.学生在期末考试之前用于复习的时间(单位:h)和考试分数(单位:分)之

间是否有关系?为研究这一问题,一位研究者抽取了由8名学生构成的一个随机

(2)计算相关系数,说明两个变量之间的关系强度。

(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。 24.根据下面数据建立回归方程,计算残差、判定系数R

2,估计标准误差se,并

第12章 多元回归分析

25.飞鸽公司的管理人员认为自行车的销售量依赖于本公司自行车的价格及其竞争对手的价格,并希望建立自行车销售量与该公司自行车价格和竞争厂商自行车

(2)对回归方程的系数作出解释。

(3)预测当飞鸽公司价格为270元,竞争厂商价格为280元时,自行车的销售量。

四、分析题 1.为研究工资水平y与工作年限x1和性别x2之间的关系,在某行业中随机抽取10名职工,得到关于工资水平y、工作年限x1、性别x2的数据,并引入虚拟变量,男性为1,女性为0。EXCEL输出的关于工资水平y、工作年限x1、性别x2的线性回归结果如下:

回归统计

Multiple R R Square Adjusted R Square 标准误差 观测值 方差分析

回归分析 残差 总计

Intercept X Variable 1 X Variable 2

1262.693 314.1267 4.019695 0.005062 519.9019 2005.485

(1)根据上表数据写出回归方程,并进行显著性检验。 (2)说明回归系数的含义。

2.一家公司拥有多家子公司,公司的管理者想通过广告支出来估计销售收入,为此抽取了8家子公司,得到广告支出和销售收入的数据如下(单位:万元)

销售收入y关于广告支出x的回归结果,EXCEL给出如下:

回归统计

Multiple R R Square Adjusted R Square 标准误差 观测值

0.926928 0.859195 0.818964 459.0483

10

df

SS

MS

F

Sig F Lower 95%

Upper 95%

2 9000923 4500461 7 1475077 210725.3 9 10476000

Coefficients 标准误差 t Stat

21.357 0.001048 P-value

930.4954 466.9741 1.992606 0.086558 -173.723 2034.714

387.6161 62.56519 6.195396 0.000447 239.6729 535.5593

0.947663 0.898064 0.881075 108.7575

8

方差分析

回归分析 残差 总计

Intercept X Variable 1

df

1 6 7

-46.2918 15.23977

SS 70969.2

MS

F

Sign-F

625246.3 625246.3 52.86065 0.000344

11828.2

t Stat

P-value

696215.5

Coefficients 标准误差

64.89096 -0.71338 0.502402 2.096101 7.270533 0.000344

(1)写出估计的回归方程。(2)进行拟合优度检验。(3)进行线性关系检验。(4)进行回归系数检验。(5)求广告费为6.1万元的那个子公司销售收入的点估计值。

3.某企业准备用三种方法组装一种新产品,为确定哪种方法每小时生产的产品数量多,随机抽取了30名工人,并指定每个人使用其中一种方法。通过对每个工人生产的产品数进行方差分析得到下面结果: 方差分析表 差异源 SS df MS F P-value F crit 组间 210 0.245946 3.354131 组内 3836 — — — 总计 29 — — — — (1)完成上面的方差分析表。

(2)在显著性水平为α=0.05的条件下,检验三种方法组装的产品数量之间是否有显著差异?

4.某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。通过计算得到下面的有关结果:

(2)汽车销售量的变差中有多少是由广告费用引起的? (3)销售量与广告费用之间的相关系数是多少?

(4)写出估计的回归方程,并解释回归系数的实际意义。

(5)检验线性关系的显著性(α=0.05)。


相关文章

  • 在大学里寻找课后答案的必去之处
  • 3500份课后答案,很值得收藏,这里只介绍了一部分. 还有很多,可以去课后答案网(http://www.khdaw.com/bbs)查找. ##################[公共基础课-答案]#################### 新 ...查看


  • 密码编码学第七章课后思考题答案
  • 7.1 对于一个典型的商业环境中的用户工作站,请列出对其窃密攻击的可能位置,即其中 的安全隐患. 局域网.通信服务器.配线室.互联网. 7.2 链路加密与端对端加密的区别是什么? 链路加密是在通信链路两端加上加密设备.端对端加密的过程在两端 ...查看


  • 统计学第五版课后思考题答案(完整版)
  • 统计学(第五版)贾俊平 课后思考题答案(完整版) 第一章思考题 1.1什么是统计学 统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论. 1.2解释描述统计和推断统计 描述统计:它研究的是数据收集,处理,汇 ...查看


  • [田间试验设计]复习思考题答案
  • (0682)<田间试验设计>复习思考题答案 一.填空题(每空1分) 1.重演性 2.系统误差.随机误差 3.重复.随机排列.局部控制 4.单因素试验.多因素试验.综合性试验 5.完全随机设计.随机区组设计.拉丁方设计.裂区设计 ...查看


  • 2015年中央财经大学经济统计学考研参考书
  • [温馨提示]现在很多小机构虚假宣传,育明教育咨询部建议考生一定要实地考察,并一定要查看其营业执照,或者登录工商局网站查看企业信息. 目前,众多小机构经常会非常不负责任的给考生推荐北大.清华.北外等名校,希望广大考生在选择院校和专业的时候,一 ...查看


  • 汝果欲学诗,功夫在诗外
  • 摘 要:高中政治试卷讲评课是反馈高中政治课教与学效果的综合课型,其主要作用在于:一方面帮助学生进一步提高分析解决问题的能力:另一方面,通过政治试卷讲评可以帮助政治教师发现自己在教学方面的问题和不足,从而进行总结.反思,改进教学方法,最终达到 ...查看


  • 大学几乎所有学科的课本答案[2]
  • 大学几乎所有学科的课本答案! 来源: 任明嘉的日志 经济金融 [PDF格式]<会计学原理>同步练习题答案 [Word格式]<成本会计>习题及答案(自学推荐,23页) [Word格式]<成本会计>配套习题集 ...查看


  • 北京版五年级数学下册期中模拟试卷
  • 五年级数学下册期中模拟试卷 (答题时间:45分钟) 五年级数学期中质量监控练习(一) 一.口算. 531-102= 2.4÷0.6= 0.48÷4= 0.8×25-2= 0÷0.38= 2.7×0.3= = 399+176= 4.35-2. ...查看


  • 幼儿园大班数学教案:橘子有几瓣
  • 活动设想: 本活动取材来源于生活,以探索橘子的瓣数为主线展开活动.活动有两个环节,第一环节是幼儿探索用多种办法点数橘子的瓣数,然后把结果记录在统计表中.幼儿通过观察统计表,了解橘子的瓣数并不相同.第二环节是利用统计得出的数据,让幼儿猜测是大 ...查看


  • 第二章 统计调查
  • 第二章 统计调查 一.本章学习要点 (一)统计调查是根据统计研究的目的和任务,运用科学的统计调查方法,有计划 有组织地向调查对象搜集原始资料(这些资料就是各个体的标志表现)的活动过程,也包括搜集次级资料.统计调查是对总体认识的起点,是统计整 ...查看


热门内容