第9题[08分]__秩和检验

一、两组计量资料比较（15分）

题干由试题和相关SPSS 分析结果组成 1. 根据资料选择正确的统计检验方法；

2. 请写出假设检验步骤：检验假设，检验水准，根据SPSS 结果选择正确的统计量值和P 值、并作出结果判断。 3. 说明：正态性检验提供K-S 检验结果；方差齐性检验提供Levene ’s 检验结果。

正态性检验和方差齐性检验不必列出检验步骤，作出判断即可。

可能包括的内容：

● 配对设计的两样本均数比较的t 检验 ● 成组设计的两样本均数比较的t 检验 ● 成组设计的两样本均数比较的近似t 检验 ● 配对设计的两样本比较的符号秩和检验 ● 成组设计的两样本比较的秩和检验举例：

⑴成组设计的两样本均数比较的t 检验

某医生测得18例慢性支气管炎患者及16例健康人的尿17酮类固醇排出量(mg/dl)分别为X 1和X 2，试问两组的均数有无不同。

X1：3.14 5.83 7.35 4.62 4.05 5.08 4.98 4.22 4.35 2.35 2.89 2.16 5.55 5.94 4.40 5.35 3.80 4.12

X2：4.12 7.89 3.24 6.36 3.48 6.74 4.67 7.38 4.95 4.08 5.34 4.27 6.54 4.62 5.92 5.18

【答案】

1. 此资料是计量资料，研究设计为完全随机设计 (又称成组设计) ；

2. 根据正态性单样本K-S 检验结果：P 值分别为 0.992、0.987，均大于 0.1，因此两样本均服从正态分布；3. 根据方差齐性检验结果：F=0.225、P=0.638，P ＞0.05，因此两样本总体方差齐性； 4. 根据以上三点，统计方法选用成组设计两样本t 检验，其假设检验过程如下： ①建立假设检验，确立检验水准：

H 0：u1＝u2，即两组的总体均数相同

H 1：u1≠u2，即两组的总体均数不同；α=0.05 ②选择检验方法，计算检验统计量t 值：（Sig.=0.638 >0.1，用第一行的p, t ）

ν =18+16-2=32 ；t= -1.818 ③确定 P 值，做出统计推断：

P=0.078＞0.05，按α=0.05的检验水准，不拒绝H0，差异无统计学意义。因此尚不能认为慢性支气管炎患者和健康人尿17酮类固醇排出量有差别。

⑵成组设计的两样本均数比较的近似t 检验或成组设计的两样本比较的秩和检验【05真题】【04真题】第一题

随机抽样调查了某地绣品厂和蓄电池厂工人各10名，测定其血中锌卟啉含量(µg/100ml)如下表。问这两个工厂工人血中锌卟啉含量有无差别？（15分）

某地绣品厂和蓄电池厂工人血中锌卟啉含量(µg/100ml)结果

绣品厂 12.1 42.9 0.0 0.0 11.1 25.0 0.0 26.3 9.1 25.0 蓄电池厂 72.5 75.3 28.3 60.0 70.5 73.1 60.0 20.0 20.0 32.6

要求：请写出上述题目假设检验过程：检验假设、检验水准、统计检验方法、检验统计量值和 P 值，并作出结果判

断(正态性检验和方差齐性检验不必列出检验步骤，作出判断即可) 。SPSS 软件有关分析结果见附页。

【答案1】近似t 检验

1. 此资料是计量资料，研究设计为完全随机设计(又称成组设计) ；

2. 根据正态性单样本K-S 检验结果：P 值分别为0.886、0.575，均大于0.1，因此两样本均服从正态分布； 3. 根据方差齐性检验结果：F=7.454、P=0.014，P ＜0.05，因此两样本总体方差不齐； 4. 根据以上三点，统计方法选用成组设计两样近似t 检验，其假设检验过程如下： ①建立假设检验，确立检验水准：

H 0：u 1＝u 2，即两组的总体均数相同；H 1：u 1≠u2，即两组的总体均数不相同；α=0.05 ②选择检验方法，计算检验统计量t 值：（Sig.=0.014

t= -4.013，ν=14.960

③确定P 值，做出统计推断：

P=0.001＜0.05，按α=0.05的检验水准，拒绝H0，接受H1，差异有统计学意义。因此认为两个工厂工人血中锌卟啉含量有差别。【答案2】成组设计秩和检验

1. 此资料是计量资料，研究设计为完全随机设计(又称成组设计) ；

2. 根据正态性单样本K-S 检验结果：P 值分别为0.886、0.575，均大于0.1，因此两样本均服从正态分布； 3. 根据方差齐性检验结果：F=7.454、P=0.014，P ＜0.05，因此两样本总体方差不齐；

4. 根据以上三点，统计方法选用两独立样本比较的 Wilcoxon 符号秩和检验，其假设检验过程如下： ①建立假设检验，确立检验水准：

H 0：两个工厂工人血中锌卟啉含量总体分布相同；H 1：两个工厂工人血中锌卟啉含量总体分布不同；α=0.05 ②选择检验方法，计算检验统计量t 值：

混合编秩；分组求秩和；以样本例数较少组对应的秩和为统计量T ，若两组样本例数相等则任取一组的秩和为统计量。

T=65或145，n1＝10，n2-n1＝0 ③确定P 值，做出统计推断：

查T 界值表(P717)，得P

二、两样本率比较（χ检验或确切概率法）(15分)

题干由试题和相关SPSS 分析结果组成 1. 根据资料选择正确的统计检验方法； 2. 列出计算表；

3. 请写出假设检验步骤：检验假设，检验水准，列出计算公式，根据SPSS 结果选择正确的统计量值和P 值、并作出结果判断。

1. 成组设计四格表资料χ2检验举例：

①表3.5 两种药物治疗十二指肠球部溃疡效果处理愈合未愈合合计愈合率（%）呋喃硝胺组甲氰咪胍组合计

54（48.22） 8（13.78） 62 87.10 44（49.78） 20（14.22） 64 68.75 98 28 126 77.78

②某医学院随机抽查四年级和五年级学生的近视眼患病情况如下表，问两个年级的近视眼患病率有无差别？

四年级和五年级学生的近视眼患病率比较年级检查人数近视人数近视率（%）

28 2 7.14 四年级

14 5 35.71 五年级

四年级和五年级学生的近视眼患病患病率比较计算表年级近视人数无近视人数合计

2 26 28 四年级

5 9 14 五年级

7 35 42 合计

T min =

7⨯14

=2. 33 四格表校正χ2检验 (符合条件1≤T40) 42

③某防疫站观察当地的一个污水排放口，在高温季节和低温季节水样的伤寒菌检出情况，资料如下表，问两个季节污水的伤寒菌检出率有无差别？

高低温季节污水中伤寒菌的检出率季节气温高低合计

阳性水样数 1（4） 7（4）阴性水样数 11（8） 5（8）合计 12 12 阳性率（%）

8.33 58.33 四格表Fisher 确切概率法 (n=24

【05真题】第五题（15分）

为观察药物A,B 治疗某病的疗效，某医生将100例该病患者随机分成两组，一组40人，服A 药；另一组60人服B 药。结果发现：服A 药的40人中有30人治愈；服B 药的60人中有11人治愈。问A 、B 两药对该病的疗效有无差别？要求：

【答案】

1. 此资料是按服A 、B 药疗效(治愈、未治愈) 分类的二分类资料，即计数资料。 2. 将100例该病患者随机分成两组，属于完全随机设计方案。

3. 该资料的目的是通过两样本率的比较来推断它们分别代表的两总体率有无差别，是成组设计两样本率比较，因此，统计方法选用

成组设计四格表资料χ2检验（Chi-Square Test）。 4.

5. ①建立假设检验，确立检验水准：

H 0：两种药物的疗效无差别，即π1=π2=41.0%；H 1：两种药物的疗效有差别，即π1≠π2；α=0.05 ②计算检验统计量χ2值：

理论数(T)值的计算：T=(nR n C )/n，T min =(41*40)/100=16.4 满足T ≥ 5，而且n ≥ 40条件，因此直接用χ2检验。

；ν=(2-1)(2-1)=1

③确定 P 值，做出统计推断：

根据SPSS 软件有关分析结果，χ2=10.550，ν=1，P ＝0.001＜0.05，按α=0.05的检验水准，拒绝H 0，接受H 1，差异有统计学意义。可以认为两种药物的疗效有差别。【04

真题】第二题

研究盐酸丁咯地尔改善周围血管闭塞性病变患者的皮肤微循环状况，以安慰剂作对照得结果如下表。问盐酸丁咯地尔是否具有改善缺血组织的皮肤微循环作用？（15

分）

盐酸丁咯地尔改善缺血组织的皮肤微循环状况处理例数改善数改善率(%)

20 15 75.00 盐酸丁咯地尔组

16 2 12.50 安慰剂组

要求：请写出上述题目假设检验过程：检验假设、检验水准、计算表、统计检验方法、检验统计量值和P 值，并作出结果判断。

【答案】（参考05年第五题） ⑴列出计算表

组别有效无效合计

2 14 16 安慰剂组

15 5 20 盐酸丁咯地尔组

17 19 36 合计 ⑵n=36

【06真题】第五题

某医院收治了186例重症乙型脑炎患者，随机分成两组，分别用同样的方法治疗，但其中一组加一定量的人工牛黄，治疗结果如下所示，问加人工牛黄是否增加该方剂的疗效？（15分）

2. 配对设计四格表资料检验

应用条件：

举例：

已确诊肝癌患者100人，每个患者分别用甲，乙两法检测AFP ，结果如下表。问甲、乙两法AFP 阳性检出率有无差别？

甲、乙两法AFP 阳性检出情况

甲法乙法

+ - 合计

+ 60 20 80 - 10 10 20 合计 70 30 100

三、方差分析（15分）提供某一实验资料，可能有如下要求： 1. 指出该实验属何种设计（方差分析）；

2. 按照题义，把总变异分成几个部分，并说明各部分的意义。并计算各部分的自由度。 3. 提供SPSS 的方差分析表，作出正确的结论。

4. 若方差分析结果有统计学意义，进一步比较的方法选择。

①表5.1 三种方案治疗后血红蛋白增加量(g/L)

B C 24 20 20 36 18 11 25 17 6 14 10 3 26 19 0 34 24 -1 23 4

---完全随机设计资料的方差分析(单因素方差分析)

②表5.3 三种方法治疗后血红蛋白增加量(g/L)

区组 A

疗法 B 疗法 C 疗法 1 16 18 18 2

15 16 20 3 19 27 35 4 13 13 23 5 11 14 17 6 10 8 12 7

5 3 8 8

-2

---随机区组设计资料的方差分析(双因素方差分析)

③表5.6 12名病人用A 、B 两法治疗的血压下降(kPa)

病人编号阶段 1

2 3 4 5 6 7 8 9 10 11 12 Ⅰ B B A B A A A A B B B A 3.07 1.33 4.40 1.87 3.20 3.73 4.13 1.07 1.07 2.27 3.47 2.40 Ⅱ A A B A B B B B A A A B 2.80 1.47 3.73 3.60 2.67 1.60 2.67 1.73 1.47 1.87 3.47 1.73 合计

5.87

2.80 8.13 5.47 5.87

5.33

6.80

2.80

2.54

4.14

6.94

4.13

---两阶段交叉设计的方差分析

④表5.12 A 、B 两药治疗后病人红细胞增加数(1012/L)

A 药 B 药 A+B药不用药 1.3 0.9 2.1 0.8 1.2 1.1 2.2 0.9 1.1

1.0

2.0

0.7

---析因设计的方差分析

随机区组设计资料的方差分析表：

举例：

【06真题】第二题；【03真题】第五题研究酵解作用对血糖浓度的影响，某医生从8名健康人中抽取了血液并制备成血滤液。每一个受试者的血滤液又分成4份，然后随机把4份血滤液分别放置0、45、90、135分钟测定其中血糖浓度。（15分）

问题：

1. 指出该实验属何种设计？

2. 按照题义，把总变异分成几个部分，并说明各部分的意义。

3. 欲分析放置不同时间的血滤液所含血糖浓度间总的来讲有无变化，经计算，得检验统计量值为77.31，请确定 P 值，并作出判断。

4. 若进一步作两两比较，以“放置0分”组为共同对照，宜选择何检验方法？【答案】

1. 该实验属于随机区组设计；

2. 总变异(SS总) 可以分解为三个部分：处理组间变异(SS处理) 、区组间变异(SS区组) 和误差(SS误差) ： SS 总：反应所有观察值之间的变异；

SS 处理：由处理因素的不同水平作用和随机误差产生的变异； SS 区组：由不同区组作用和随机误差产生的变异； SS 误差：完全由随机误差产生的变异 3. 假设检验过程如下：

①建立假设检验，确立检验水准：

对于处理组：H 0：四个不同时间血糖浓度的总体均数相等，即μ1=μ2=μ3=μ4；

H 1：四个总体均数不等或不全相等；α=0.05

对于区组：H 0：八个区组的总体均数相等，即μ1=μ2=„„μ8；

H 1：八个区组的总体均数不等或不全相等；α=0.05

②计算检验统计量F 值：

F 处理=MS处理/MS误差=0.9681/0.0125=77.31 F 区组=MS区组/MS误差=0.3569/0.0125=28.552 V 总=N-1=32-1=31 V 处理=k-1=4-1=3 V 区组=b-1=8-1=7

V 误差=(k-1)(b-1)=3×7=21 ③确定P 值，做出统计推断：

推断处理间的差别，按v 1=3，v 2=21查F 界值表，得F 0.05(3, 21)=3.07，F 0.01(3,21)= 4.87，P ＜0.01；推断区组间的差别，按v 1=7，v 2=21查F 界值表，得F 0.05(7, 21)= 2.49，F 0.01(7,21)= 3.65，P ＜0.01。

按α=0.05检验水准皆拒绝H 0，接受H 1，可认为放置时间长短会影响血糖浓度且不同受试者的血糖浓度亦有差别。但尚不能认为任两个不同放置时间的血糖浓度总体均数皆有差别，必要时可进一步作两两比较的q 检验。

C=(ΣX)2/n=(169.56)2/32=898.45605

SS 总=ΣX 2-C=904.1214-898.45605=5.66535 V 总=n-1=32-1=31 V 处理=k-1=4-1=3 V 区组=b-1=8-1=7

V 误差=(k-1)(b-1)=3×7=21

SS 误差=SS总-SS 处理-SS 区组=5.66535-2.90438-2.49800=0.26297 MS 处理=SS处理/v处理=2.90438/3=0.9681 MS 区组=SS区组/v区组=2.49800/7=0.3569 MS 误差=SS误差/v误差=0.26297/21=0.0125

为研究雌激素对子宫发育的作用，用四个种系的未成年雌性大白鼠各3只，每只按一定剂量注射雌激素，至一定时间取出子宫并称重，结果如下表所示：（15分）

问题：

1. 上述试验属何种试验设计？

2. 按照题义，把总变异分成哪几个部分？并说明各部分的意义。 3. 根据附页SPSS 计算结果，作出正确的结论。

【答案】

1. 此试验属于随机区组设计

2. 总变异可以分解为3部分，其各自的意义如下：

SS 处理：由处理因素(雌激素) 的不同水平作用和随机误差产生的变异； SS 区组：由不同区组(不同种系) 作用和随机误差产生的变异； SS 误差：完全由随机误差产生的变异 3. 由SPSS 结果可得出如下结论：

①三种不同剂量的雌激素作用后，子宫重量的总体均数全不相等，即不同剂量的雌激素对子宫的重量有影响。②不同种系大白鼠对雌激素的反应也不同。

某试验研究加用可的松是否影响党参对ATP 酶的作用，结果如下表：（15分）

可的松影响党参对ATP 酶的试验结果

盐水可的松+盐水可的松+党参盐水党参+盐水 4.621 3.754 3.281 4.881 4.208 3.408 4.011 4.818 4.932 4.634 4.251 5.769 5.139 4.054 4.218 5.181 4.815 4.645 3.239

4.913

问题：

1. 上述试验属何种试验设计？

2. 按照题意，把总变异分成哪几个部分？并说明各部分的意义。 3. 若检验统计量F(可的松×党参)=2.704，请确定P 值，并作出判断。【答案】

1. 2×2析因分析 2. 变易分解：

SS 总=SS处理+SS 误差=SSA +SSB +SSAB +SS误差

=SS可的松+SS党参+SS可的松*党参+SS误差

SS 可的松：可的松的主效应 SS 党参：党参的主效应

SS 可的松*党参：可的松和党参的交互作用 SS 误差：完全由随机误差产生的变异

3.P>0.05，结论为可的松不影响党参对A TP 酶的作用。

SS df MS F P 党参 1 可的松 1 党参*可的松 1 2.704 >0.05 误差 16 总变异 19

四、多因素分析（15分）可能涉及范围：多元线性回归、logistic 回归、COX 回归。要求： 1. 提供某一资料，选择统计分析方法

2. 偏回归系数、标准偏回归系数、决定系数、校正决定系数、OR 等常用指标的意义与应用 3. 列回归方程举例：

(一) 多元线性回归

27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值如下表：

问题：

1. 欲分析影响空腹血糖浓度的有关因素，宜采用什么统计分析方法？

2. 已知甘油三酯(X2)、胰岛素(X3)和糖化血红蛋白(X4)是主要影响因素，现欲比较上述因素对血糖浓度的相对影响强度，应计算何种指标？

3. 分析其回归模型的好坏宜选用何种指标？ 4. 根据给出SPSS 结果，做出正确的结论。

【答案】

1. 此资料包含有四个变量，属于多变量计量资料，为多因素设计。要分析多因素对空腹血糖浓度的影响，宜采用多元线性回归分析。

2. 标准偏回归系数可用来比较各自变量Xj 对Y 的影响强度，有统计意义下，回归系数绝对值越大，对Y 的作用越大。 SPSS 输出的多元回归分析结果中给出的各变量的标准偏回归系数,

比较三个标准偏回归系数：甘油三脂: 胰岛素: 糖化血红蛋白=0.354: 0.360: 0.413≈1: 1.02: 1.17(倍) 对血糖的影响强度大小依次为：糖化血红蛋白X4 >胰岛素X3 >甘油三脂X2 3. 校正决定系数( R2a )作为评价标准。

一般说决定系数(R2) 越大越优，但由于R 2是随自变量的增加而增大，因此，不能简单地以R 2作为评价标准，而是用校正决定系数(R2a ) 作为评价标准。R 2a 不会随无意义的自变量增加而增大。 4. 空腹血糖浓度与总胆固醇无关，与甘油三脂、空腹胰岛素、糖化血红蛋白线性相关。

ˆ=6. 5+0. 402X 2-0. 287X 3+0. 663X 4 5. 最优回归方程为：y

【答案具体分析】---多元线性回归

1. 此资料包含有四个变量，属于多变量计量资料，为多因素设计。要分析多因素对空腹血糖浓度的影响，宜采用多元线性回归分析。

2. 根据样本数据求得模型参数β0, β1, β2, β3, β4的估计值b0,b1,b2,b3,b4。β0称为截距，β1, β2…βm 称为偏回归系数。

ˆ=5. 943+0. 142X 1+0. 351X 2-0. 271X 3+0. 638X 4 求得回归方程为：y

3. 对总的回归方程的假设检验和评价：

检验所有自变量X1,X2,X3,X4作为整体与应变量Y 之间是否具有线性关系。 ⑴方差分析法：

H0：β1=β2=β3=β4=0；

H1：β1, β2, β3, β4不全为0；α=0.05

查表F 界值表得(P698)，得F 0.01(4,22) =4.31，F=8.278＞4.31，P ＜0.01

依据SPSS 结果，P=0.000

⑵决定系数R ：根据方差分析结果R =0.601，说明空腹血糖浓度变异的60%可由血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白的变化来解释。

回归模型的好坏以决定系数(R2) 越大越优，但由于R 2是随自变量的增加而增大，即使无显著性的变量进入方程，其值亦增加。因此，在相近的情况下，以包含的自变量少者为优，也可用校正决定系数(R2a ) 作为评价标准。R 2a 不会随无意义的自变量增加而增大。

⑶复相关系数(R)：表示表示m 个自变量共同对应变量的相关密切程度。R =0.775 ⑷各自变量的假设检验和评价：采用t 检验法

对每一个自变量的作用进行检验和衡量它们对Y 作用的大小。 H0：βj ＝0，即Y 与Xj 无线性相关关系

H1：βj ≠0，即Y 与Xj 有线性相关关系；α=0.05

同一资料，不同自变量的t 值间可以相互比较，t 值的绝对值越大，说明该自变量对Y 的回归所起的作用越大。标准偏回归系数可用来比较各自变量Xj 对Y 的影响强度，有统计意义下，回归系数绝对值越大，对Y 的作用越大。 4. 自变量的选择：

通常每次只剔除关系最弱的一个因素。由方程中剔除因素的标准(通常α=0.10)

根据多元回归方程1的偏回归系数检验结果，X1(总胆固醇) 的P ＝0.701>0.05，Y 与X1无线性相关关系被剔除。

ˆ=6. 500+0. 402X 2-0. 287X 3+0. 663X 4 重新建立不包含剔除因素的回归方程2：y

对新建立的回归方程进行检验：

依据SPSS 结果，P ＝0.000

ˆ=6. 500+0. 402X 2-0. 287X 3+0. 663X 4 最后获得回归方程为：y

(二) logistic回归

50例急性淋巴细胞白血病病人，在入院时白细胞数X 1(×10/L)，淋巴结浸润度X 2(记为 0, 1, 2三级) ，缓解出院后巩固治疗X 3(巩固治疗时赋值1; 无巩固治疗时赋值0) 。随访1年取得每例病人是否死亡Y (死亡赋值1; 存活赋值0) 的资料。

1. 欲筛选哪些因素是影响急性淋巴细胞白血病病人一年内死亡的的主要因素，应选择何种统计分析方法？ 2. 经统计分析得淋巴结浸润度(X2) 和缓解出院后巩固治疗(X3) 是有意义的影响因素，现计算得b 0= 1.642， b 2=0.707，b 3= -2.784，请列出其回归方程？ 3. 请解析X3对应的EXP(B)=0.062的含义？

4. 缓解出院后有巩固治疗患者一年内死亡的危险性是没有巩固治疗患者的多少？

5. 假如此例是研究巩固治疗后生存时间受哪些因素影响，所调查的因素同上，现欲分析哪些因素是主要的影响胃癌患者术后生存时间的因素，宜选择何种统计分析方法？

【答案】

1. 该资料的应变量为二项分类变量，应选择多因素Logistic 回归分析； 2. X1的P ＝0.682>0.05，X1变量被剔除。

经统计分析得淋巴结浸润度(X2) 和缓解出院后巩固治疗(X3) 是有意义的影响因素，现计算得b 0= 1.642，b 2=0.707，b 3= -2.784，那么其Logistic 回归方程是：

1. 642+0. 707x 2-2. 784x 3

e P =

1+e 1. 642+0. 707x 2-2. 784x 3

（P 为一年内死亡的概率）

3.X3对应的EXP(B)=0.062的含义：

EXP(B)示的是在其它因素(自变量) 固定的情况下，该变量与疾病关联的优势比，即因素x 与疾病的关联程度，常用OR 表示。称作多变量调整后的优势比(adjusted odds ratio)。优势比(OR)指某一影响因素X i 两个不同暴露水平(C1，C 0) 的P/Q值之比(Q =1-P)。

当某影响因素Xi 仅为两个水平(1暴露，0非暴露) ，则：OR i =exp(b i ) 当b i =0时，OR i =1，说明因素X i 对疾病发生不起作用；

当b i >0时，OR i >1，说明因素X i 对疾病发生是危险因素；当b i

①一名有巩固治疗的病人，其一年内死亡的概率为：将X=1代入上式得P=0.32。（方程见下面的补充） ②一名没有巩固治疗的病人，其一年内死亡的概率为：将X=0代入上式得P=0.88。

即缓解出院后有巩固治疗患者一年内死亡的危险性是没有巩固治疗患者的0.32/0.88=4/11。

五、其它40分(每题≤10分)

提供某一素材，可能要求：

⏹ 选择正确的统计方法并简述理由 ⏹ 对错误进行分析，并予以纠正

⏹ 对某些数据、指标的含义作出正确的判断 ⏹ 正交试验表头设计及结果分析

可能涉及范围：变量的类型、计量资料的统计描述、相对数及其应用注意事项，总体率的区间估计，秩和检验，

直线相关与回归，随访资料的生存分析，正交试验设计。

举例：

(一) 正交试验表头设计及结果分析【06真题、03真题】第四题；【05真题】第八题；【04真题】第六题

某医师研究四种药物(A、B 、C 、D) 联合用药对慢性苯中毒(主要表现为白细胞数减少) 的疗效，以白细胞计数增加量为观察指标。每种药物都分成用与不用两个水平，要求试验设计达到分析A 、B 、C 、D 的疗效及交互作用AB 、AC 、BC 的目的。现采用正交试验设计，选择L 8(27) 正交表作表头设计如下，并随机抽取8 例慢性苯中毒患者进行试验。

1. 请对上述试验设计进行评价，若有错误则改正。（7分） 2. 请根据上述资料进行表头设计。【05真题、04真题】【答案】

1. 本试验有4个两水平的因素和3个交互作用需要考察，各项自由度之和为：4×(2-1)+3×(2-1)×(2-1)=7；

若选用L 8(2) 来作正交表表头设计作，只能安排的因素及其交互作用共7个自由度，就没有空白列来做计算

误差项，势必进行重复实验增加实验次数，本实验没有提到重复实验，因此选择L 8(2) 不合适。

2. 本试验有4个两水平的因素和3个交互作用需要考察，各项自由度之和为：4×(2-1)+3×(2-1)×(2-1)=7，

因此可选用L 12(2) 来安排试验方案。

表头设计

列号

因素数 7

1 A

2 B

3 AB

4 C

5 AC

6 BC

8 D

将A 因素放在第1列，B 因素放在第2列，查表L 12(211) 交互作用表可知，第1列与第2列的交互作用列是

第3列，于是将交互作用AB 放在第3列；这样第3列不能再安排其它因素，以免出现“混杂”。然后将C

放在第4列；查表L 12(2) 交互作用表可知，AC 应放在第5列，BC 应放在第6列；第7列为ABC 交互作用列，本试验不考虑ABC ，因此作为空列，作计算误差项；将D 放在第8列；列余下列为空列9，10，11，皆作计算误差项。

因素间有交互作用的正交设计与分析：在实际研究中，有时试验因素之间存在交互作用。对于既考察因素主效应又考察因素间交互作用的正交设计，除表头设计和结果分析与前面介绍略有不同外，其它基本相同。举例：

某一种抗菌素的发酵培养基由A 、B 、C 3种成分组成，各有两个水平，除考察A 、B 、C 三个因素的主效外，还考察A 与B 、B 与C 的交互作用。试安排一个正交试验方案并进行结果分析。

1. 选用正交表，作表头设计：由于本试验有3个两水平的因素和两个交互作用需要考察，各项自由度之和为： 3×(2-1)+2×(2-1)×(2-1)=5，因此可选用L 8(27) 来安排试验方案。可利用L 8(27) 二列间交互作用列表(见表1) 来安排各因素和交互作用。

表1 L 8(27) 交互作用列表

2 3 3 2 1 4 5 6 7 列号 1 2 3 4 5 1 5 4 7 6 1 6 7 4 5 2 3 7 6 5 4 3 2 1列与第2列的交互作用列是第3列，于是

将A 与B 的交互作用AB 放在第3列。这样第3列不能再安排其它因素，以免出现“混杂”。然后将C 放在第4列，查表1可知，BC 应放在第6列，余下列为空列，如此可得表头设计，见表2。

列号因素

1 A

2 B

3 AB

4 C

5 空

6 BC

7 空

2. 列出试验方案：根据表头设计，将A,B,C 各列对应的数字”1”、”2”换成各因素的具体水平，得出试验方案列于表3。

表3 正交试验方案

试验号

1 2 3 4 5 6 7 8

因素

1(A) 1(A1) 1(A1) 1(A1) 1(A1) 2(A2) 2(A2) 2(A2) 2(A2)

2(B) 1(B1) 1(B1) 2(B2) 2(B2) 1(B1) 1(B1) 2(B2) 2(B2)

3(C) 1(C1) 2(C2) 1(C1) 2(C2) 1(C1) 2(C2) 1(C1) 2(C2)

3. 结果分析：按表3所列的试验方案进行试验，其结果见表4。

表中T i 、i 计算方法同前。此例为单独观测值正交试验，总变异划分为A 因素、B 因素、C 因素、AB 、BC 、

与误差变异5部分，平方和与自由度划分式为： SS T =SSA +SSB +SSC +SSAB +SSBC +SSe

df T =dfA +dfB +dfC +dfAB +dfBC +dfe ⑴计算各项平方和与自由度

矫正数：C=T2/n=6652/8=55278.1250

总平方和：SS T =Σy 2-C=552+382+„+612-55278.1250=6742.8750 A 因素平方和：SS A =ΣT 2A /a-C=(2792+3862)/4-55278.1250=1431.1250 B 因素平方和：SS B =ΣT 2B /b-C=(3392+3262)/4-55278.1250=21.1250 C 因素平方和：SS C =ΣT 2C /c-C=(3532+3122)/4-55278.1250=210.1250

AB 平方和：SS AB =ΣT 2AB /4-C=(2332+4322)/4-55278.1250=4950.1250 BC 平方和：SS BC =ΣT 2BC /4-C=(3272+3382)/4-55278.1250=15.1250 误差平方和：SS e =SST -SS A -SS B -SS AB -SS BC =6742.8750-1431.1250-21.1250-210.1250-4950.1250-15.1250=115.2500 总自由度：df T =n-1=8-1=7 各因素自由度：df A =dfB =df

C =2-1=1 交互作用自由度：df AB =dfBC =(2-1)(2-1)=1

误差自由度：df e =dfT -df A -df C -df AB -df BC =7-1-1-1-1-1=2

表4 有交互作用的正交试验结果计算表

试验号 1 2 3 4 5 6 7 8 T 1 1因素

A 1 1 1 1 2 2 2 2 279 96.50

B 1 1 2 2 1 1 2 2 339 81.50

AB 1 1 2 2 2 2 1 1 233 108.00

C 1 2 1 2 1 2 1 2 353 78.00

BC 1 2 2 1 1 2 2 1 327 84.50

试验结果(%)* 55(y1) 38(y2) 97(y3) 89(y4) 122(y5) 124(y6) 79(y7) 61(y8) 665(T)

*试验结果以对照为100计

⑵列出方差分析表，进行F 检验

表5 方差分析表

变异来源

B C AB BC 误差总的

SS 1431.1250 21.1250 210.1250 4950.1250 15.1250 115.1250 6742.8750

df 1 1 1 1 1 2 7

MS 1431.1250 21.1250 210.1250 4950.1250 12.1250 57.6250

F 24.84*

F 0.05(1, 2) 18.51

F 0.01(1, 2) 98.49

F 检验结果表明：A 因素和交互作用AB 显著，B 、C 因素及BC 交互作用不显著。因交互作用AB 显著，应对A 与B 的水平组合进行多重比较，以选出A 与B 的最优水平组合。 ⑶A 与B 各水平组合的多重比较

先计算出A 与B 各水平组合的平均数：

A 1B 1水平组合的平均数11=(55+38)/2=46.50 A 1B 2水平组合的平均数12=(97+89)/2=93.00 A 2B 1水平组合的平均数21=(122+124)/2=123.00 A 2B 2水平组合的平均数22=(79+61)/2=70.00 列出A 、B 因素各水平组合平均数多重比较表，见表6。 ij ij A 2B 1 123.00 76.5* 53* A 1B 2 93.00 46.5* 23 A 2B 2 70.00 23.5 A 1B 1 46.50

表7 q 值与LSR 值表

ij 30

因为S =MS e /2=. 625/2=5. 37，由df e =2与k =2, 3, 4, 查临界q 值，并计算出LSR 值，见表12-37。 dfe k q 0.05 q 0.01 LSR 0.05 LSR 0.01 2 6.09 14.0 32.70 75.18 2 3 8.28 19.0 44.46 102.03 4 9.80 22.3 52.63 119.75

多重比较结果表明，A 2B 1显著优于A 2B 2，A 1B 1；A 1B 2显著优于A 1B 1，其余差异不显著。最优水平组合为A 2B 1。从以上分析可知，A 因素取A 2，B 因素取B 1，若C 因素取C 1，则本次试验结果的最优水平组合为A 2B 1C 1。

注意，此例因df e =2，F 检验与多重比较的灵敏度低。为了提高检验的灵敏度，可将F

(二) 随访资料的生存分析：【05真题】第四题；【04真题】第五题；【03真题】第六题

16例某癌症病人在不同时期经随机化分配到A 、B 两治疗组，并继续进行随访至1974年5月31日结束。资料如下表：(8分)

病人号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

治疗组 A B B A A B A A B B B A B B A B

16例某种癌症病人随访资料分组日期终止日期 68．05．12 68．05．30 70．10．18 71．04．16 69．02．12 70．11．06 72．01．30 74．05．31 73．11．11 74．01．02 68．03．12 73．03．30 69．01．06 69．01．04 69．02．08 70．02．08 71．05．02 71．11．13 68．03．08 68．05．23 73．12．12 74．02．20 74．05．01 74．05．09 72．07．02 72．07．15 68．12．18 74．04．31 69．01．01 74．05．31 73．09．02 73．09．20

是否该病死亡

Y Y Y 仍存活 Y 车祸死亡

Y 迁出 Y Y Y Y Y 失访仍存活 Y

截尾值 √ √ √ √ √

1. 上述资料随访时间单位以(日) 、(月) 、(年) 哪个较合适？为什么？ 2. 判断上述随访时间哪些属截尾值，写出观察对象编号。

3. 要比较A 、B 疗法对该种癌症病人的疗效，宜选用何种统计检验方法？ 4.A 、B 治疗组随访资料生存时间的特征量(代表值) 一般用何指标表示？【答案】

1. 上述资料随访时间单位以月较合适。

原因：一般情况下较细的时间单位准确性较高，当随访时间可以作较细的量化时，则应考虑用较细的时间单位。但研究目的不同，时间单位不同，使用恰当的时间单位。本资料的目的是比较A 、B 疗法对该种癌症病人的疗效，癌症病人的生存时间测度单位如果以(日) 太小，因此，本资料随访时间单位以月较合适？ 2. 产生截尾数据的原因：包括中途失访、研究结束时仍然存活、死于与研究疾病无关的原因。因此，编号4、6、8、14、15观察对象属截尾值。

3. 两样本生存曲线比较，宜选用对数秩检验(log-rank test)。

4.A 、B 治疗组随访资料生存时间的特征量(代表值) 一般用中位生存时间(median survival time)表示。

【06真题】第九题

某医生从2002年1月1日起对某医院收治的6名急性心肌梗塞病人进行跟踪观察，2002年3月25日结束观察，共12周。记录的资料如下：（5分）

1. 上述资料随访时间单位以(日) 、(月) 、(年) 哪个较合适？为什么？

2. 判断上述随访时间哪些属截尾值？写出观察对象编号。(答案可参考上一题)

(三) 计量资料的统计描述【06真题、05真题】第三题

某市100

名正常成人男性血红蛋白值(g/dL)频数分布表如下：（7分）

11.5- 12.0- 12.5- 13.0- 13.5- 14.0- 14.5- 组段

2 6 7 14 24 12 18 频数

1. 选用何种指标描述其集中位置和离散程度较好？为什么？

2. 估计该地正常成年男性血红蛋白的正常值范围。

SPSS 软件有关分析结果：

15.0- 10 15.5- 3 16.0- 4

【答案】

1. 此资料服从正态分布。原因：中位数和均数较接近，且偏度系数接近0。(偏度系数Skewness=0.044；峰度系数Kurtosis=-0.320；两个系数都小于1)

对于正态分布资料描述其集中位置用算数均数较好，该资料算数均数=14.03；对于正态分布资料描述其离散程度用标准差较好，该资料标准差=1.0282。 2. 对于正态分布资料正常值范围估计用正态分布法较好：

因男性血红蛋白过多或过少均为异常，故按双侧估计，取95%界限：下限：－1.96S ＝14.03－1.96×1.0282=12.014（g/dL）上限：＋1.96S ＝14.03＋1.96×1.0282=16.045（g/dL）

因此，该地正常成年男性血红蛋白的正常值范围为(12.014，16.045)g/dL 。

【制定参考值范围】

⑴正态分布法适用于服从正态（或近似正态）分布指标以及可以通过转换后服从正态分布的指标。 ⑵百分位数法常用于偏态分布的指标。表3-1 中两种方法的单双侧界值都应熟练掌握。

质量控制：为了控制实验中的测量(或实验) 误差，常以X ± 2S 作为上、下警戒值，以X ±3S 作为上、下控

制值。这样做的依据是：正常情况下测量(或实验) 误差服从正态分布。

(四) 相对数应用注意事项；率的标准化【06 真题】第七题

某地调查农村中不同人群的HbsAg 阳性情况，结果如下表，从中得出农民HbsAg 阳性情况最严重，医务人员最低的结论。试讨论这样评价是否可信？应作如何补充和修改？（5分）

某地调查农村中不同人群的HbsAg 阳性情况

人群检查人数阳性人数

阳性百分比(%)

农民 1013 128 45.9 医务人员 21 4 1.5 中学生 99 15 5.4 小学生 326 51 18.3 学龄前儿童 437 76 27.2 其他 47 5 1.8 合计

1943

279

100.0

【答案】

①这样评价不正确。原因是以HbsAg 阳性构成比代替HbsAg 阳性率的错误，即错误地以比代率。 ②第四栏“阳性百分比”是每组阳性人数除以总阳性人数得到的。增加第五栏“阳性率”，阳性率=阳性人数/检查人数×100%

人群检查人数阳性人数阳性百分比(%)

阳性率(%) 农民

1013 128 45.9 12.64 医务人员 21 4 1.5 19.05 中学生 99 15 5.4 15.15 小学生 326 51 18.3 15.64 学龄前儿童 437 76 27.2 17.39 其他 47 5 1.8 10.64

【05真题】第七题

抽样调查某企业2839名职工中的高血压病人情况如下表。据此，某医生认为：⑴该企业高血压发病率为8%，并随年龄递增，其中40岁以上患者占全部病例的90.3%，60岁以上者发病率为100%。⑵高血压发病与性别有关，男性为10.2%，女性为4.5%，男性明显高于女性(P

男、女各年龄组高血压病例分布

年龄组男性

女性受检人数病例数发病率(%) 受检人数病例数发病率(%) 20~

333 5 1.5

712 4 0.6 30~ 301 4 1.3 142 9 6.3 40~ 517 64 12.4 185 27 14.6 50~ 576 93 16.0 61 9 14.8 60~ 12 12 100.0 - - - 1. 以上分析有很多不妥。

①60~的受检人数仅12，计算相对数的分母过小。因此，“60岁以上者发病率为100%”的评价是不妥的。 ②“高血压发病与性别有关，男性为10.2%，女性为4.5%，男性明显高于女性”的结论是不妥的。原因是男女性别内部构成不同，不具可比性，需进行率的标准化。

2. 使用直接法进行率的标准化；把两组年龄段人口合并作为标准组。

年龄组男性

女性

标准人口数原发病率(%)

预期发病率(%)

原发病率(%)

预期发病率(%)

20~ 1045 1.5 0.55 0.6 0.22 30~ 443 1.3 0.20 6.3 0.98 40~ 702 12.4 3.07 14.6 3.61 50~ 637 16 3.59 14.8 3.32 60~ 12 100 0.42 - 合计

2839

10.2

10.20

4.5

4.50

3. 可见，标准化以后，每个年龄组中男性、女性发病率相当。

(五) 秩和检验 (经验：凡等级在3个以上的等级资料一定用秩和检验) 【06真题】第八题

为研究慢性气管炎病人痰液中嗜酸性粒细胞是否高于正常人，选择24名正常人和44名慢性气管炎病人痰液中嗜酸性粒细胞检查结果如下表，宜用何统计分析方法？若求得的检验统计量值为3.6217，如何下结论？(5分

)

【答案】成组设计秩和检验

1. 此资料是单向有序分类资料，研究设计为完全随机设计 (又称成组设计) ；

2. 统计方法选用两独立样本比较的 Wilcoxon 符号秩和检验，其假设检验过程如下： ⑴建立假设检验，确立检验水准：

H0：慢性气管炎病人与正常人痰液中嗜酸性粒细胞总体分布相同；

H1：慢性气管炎病人与正常人痰液中嗜酸性粒细胞总体分布不同；α=0.05 ⑵计算检验统计量T 值： ①求各等级的秩次；

②求各等级的平均秩次；为秩次范围上下限相加除以2得平均秩次； ③求秩和；为各级的平均秩次与相应例数相乘； ④确定统计量T 值。

(1) (2) (3) (4) (5) (6) (7)＝(2)×(6) (8)＝(3)×(6) 结果正常人病人合计秩次范围平均秩次正常人秩和

病人秩和

－ 11 5 16 1～16 8.5 93.5 42.5 ＋ 10 18 28 17～44 30.5 305 549 ＋＋ 3 16 19 45～63 54 162 864 ＋＋＋ 0 5 5 64～68 66 0 330 合计

24（n1）

44(n2)

560.5(T1)

1785.5(T2)

以较小的例数组的例数作为n1、其秩和作为统计量T ；因此，n1=24，n2=44，T=560.5。本资料中n1=24>10，超过了两组比较T 界值表的范围，用正态近似法作U 检验。 ⑶确定P 值，做出统计推断：

得检验统计量值u=3.6217，查t 界值表，得单侧P

因此，可以认为慢性气管炎病人痰液中嗜酸性粒细胞(1785.5/44=40.6)高于正常人(560.5/24=23.4)。

【04真题】第八题

某医院探讨矽肺不同期次患者的胸部平片肺门密度变化，把492名患者的资料归纳如下表。问欲分析矽肺患者肺门密度的增加与矽肺的期次有无关系，宜选用何种统计方法？为什么？（7分）

不同期次矽肺患者肺门密度级别分布

肺门密度级别

矽肺期次 + ++ +++

合计 Ⅰ 43 188 14 245 Ⅱ 1 96 72 169 Ⅲ 6 17 55 78 合计

50 301

141 492

【答案】用等级相关分析

【双向有序属性不同的两分类变量相关分析】用等级相关分析，又称秩相关。 “有序分组资料的线性趋势检验”---考试不作要求

一、两组计量资料比较（15分）

题干由试题和相关SPSS 分析结果组成 1. 根据资料选择正确的统计检验方法；

正态性检验和方差齐性检验不必列出检验步骤，作出判断即可。

可能包括的内容：

⑴成组设计的两样本均数比较的t 检验

某医生测得18例慢性支气管炎患者及16例健康人的尿17酮类固醇排出量(mg/dl)分别为X 1和X 2，试问两组的均数有无不同。

X1：3.14 5.83 7.35 4.62 4.05 5.08 4.98 4.22 4.35 2.35 2.89 2.16 5.55 5.94 4.40 5.35 3.80 4.12

X2：4.12 7.89 3.24 6.36 3.48 6.74 4.67 7.38 4.95 4.08 5.34 4.27 6.54 4.62 5.92 5.18

【答案】

1. 此资料是计量资料，研究设计为完全随机设计 (又称成组设计) ；

H 0：u1＝u2，即两组的总体均数相同

H 1：u1≠u2，即两组的总体均数不同；α=0.05 ②选择检验方法，计算检验统计量t 值：（Sig.=0.638 >0.1，用第一行的p, t ）

ν =18+16-2=32 ；t= -1.818 ③确定 P 值，做出统计推断：

P=0.078＞0.05，按α=0.05的检验水准，不拒绝H0，差异无统计学意义。因此尚不能认为慢性支气管炎患者和健康人尿17酮类固醇排出量有差别。

⑵成组设计的两样本均数比较的近似t 检验或成组设计的两样本比较的秩和检验【05真题】【04真题】第一题

随机抽样调查了某地绣品厂和蓄电池厂工人各10名，测定其血中锌卟啉含量(µg/100ml)如下表。问这两个工厂工人血中锌卟啉含量有无差别？（15分）

某地绣品厂和蓄电池厂工人血中锌卟啉含量(µg/100ml)结果

绣品厂 12.1 42.9 0.0 0.0 11.1 25.0 0.0 26.3 9.1 25.0 蓄电池厂 72.5 75.3 28.3 60.0 70.5 73.1 60.0 20.0 20.0 32.6

要求：请写出上述题目假设检验过程：检验假设、检验水准、统计检验方法、检验统计量值和 P 值，并作出结果判

断(正态性检验和方差齐性检验不必列出检验步骤，作出判断即可) 。SPSS 软件有关分析结果见附页。

【答案1】近似t 检验

1. 此资料是计量资料，研究设计为完全随机设计(又称成组设计) ；

H 0：u 1＝u 2，即两组的总体均数相同；H 1：u 1≠u2，即两组的总体均数不相同；α=0.05 ②选择检验方法，计算检验统计量t 值：（Sig.=0.014

t= -4.013，ν=14.960

③确定P 值，做出统计推断：

P=0.001＜0.05，按α=0.05的检验水准，拒绝H0，接受H1，差异有统计学意义。因此认为两个工厂工人血中锌卟啉含量有差别。【答案2】成组设计秩和检验

1. 此资料是计量资料，研究设计为完全随机设计(又称成组设计) ；

4. 根据以上三点，统计方法选用两独立样本比较的 Wilcoxon 符号秩和检验，其假设检验过程如下： ①建立假设检验，确立检验水准：

H 0：两个工厂工人血中锌卟啉含量总体分布相同；H 1：两个工厂工人血中锌卟啉含量总体分布不同；α=0.05 ②选择检验方法，计算检验统计量t 值：

混合编秩；分组求秩和；以样本例数较少组对应的秩和为统计量T ，若两组样本例数相等则任取一组的秩和为统计量。

T=65或145，n1＝10，n2-n1＝0 ③确定P 值，做出统计推断：

查T 界值表(P717)，得P

二、两样本率比较（χ检验或确切概率法）(15分)

题干由试题和相关SPSS 分析结果组成 1. 根据资料选择正确的统计检验方法； 2. 列出计算表；

3. 请写出假设检验步骤：检验假设，检验水准，列出计算公式，根据SPSS 结果选择正确的统计量值和P 值、并作出结果判断。

1. 成组设计四格表资料χ2检验举例：

①表3.5 两种药物治疗十二指肠球部溃疡效果处理愈合未愈合合计愈合率（%）呋喃硝胺组甲氰咪胍组合计

54（48.22） 8（13.78） 62 87.10 44（49.78） 20（14.22） 64 68.75 98 28 126 77.78

②某医学院随机抽查四年级和五年级学生的近视眼患病情况如下表，问两个年级的近视眼患病率有无差别？

四年级和五年级学生的近视眼患病率比较年级检查人数近视人数近视率（%）

28 2 7.14 四年级

14 5 35.71 五年级

四年级和五年级学生的近视眼患病患病率比较计算表年级近视人数无近视人数合计

2 26 28 四年级

5 9 14 五年级

7 35 42 合计

T min =

7⨯14

=2. 33 四格表校正χ2检验 (符合条件1≤T40) 42

③某防疫站观察当地的一个污水排放口，在高温季节和低温季节水样的伤寒菌检出情况，资料如下表，问两个季节污水的伤寒菌检出率有无差别？

高低温季节污水中伤寒菌的检出率季节气温高低合计

阳性水样数 1（4） 7（4）阴性水样数 11（8） 5（8）合计 12 12 阳性率（%）

8.33 58.33 四格表Fisher 确切概率法 (n=24

【05真题】第五题（15分）

【答案】

1. 此资料是按服A 、B 药疗效(治愈、未治愈) 分类的二分类资料，即计数资料。 2. 将100例该病患者随机分成两组，属于完全随机设计方案。

3. 该资料的目的是通过两样本率的比较来推断它们分别代表的两总体率有无差别，是成组设计两样本率比较，因此，统计方法选用

成组设计四格表资料χ2检验（Chi-Square Test）。 4.

5. ①建立假设检验，确立检验水准：

H 0：两种药物的疗效无差别，即π1=π2=41.0%；H 1：两种药物的疗效有差别，即π1≠π2；α=0.05 ②计算检验统计量χ2值：

理论数(T)值的计算：T=(nR n C )/n，T min =(41*40)/100=16.4 满足T ≥ 5，而且n ≥ 40条件，因此直接用χ2检验。

；ν=(2-1)(2-1)=1

③确定 P 值，做出统计推断：

真题】第二题

分）

盐酸丁咯地尔改善缺血组织的皮肤微循环状况处理例数改善数改善率(%)

20 15 75.00 盐酸丁咯地尔组

16 2 12.50 安慰剂组

要求：请写出上述题目假设检验过程：检验假设、检验水准、计算表、统计检验方法、检验统计量值和P 值，并作出结果判断。

【答案】（参考05年第五题） ⑴列出计算表

组别有效无效合计

2 14 16 安慰剂组

15 5 20 盐酸丁咯地尔组

17 19 36 合计 ⑵n=36

【06真题】第五题

2. 配对设计四格表资料检验

应用条件：

举例：

已确诊肝癌患者100人，每个患者分别用甲，乙两法检测AFP ，结果如下表。问甲、乙两法AFP 阳性检出率有无差别？

甲、乙两法AFP 阳性检出情况

甲法乙法

+ - 合计

+ 60 20 80 - 10 10 20 合计 70 30 100

三、方差分析（15分）提供某一实验资料，可能有如下要求： 1. 指出该实验属何种设计（方差分析）；

2. 按照题义，把总变异分成几个部分，并说明各部分的意义。并计算各部分的自由度。 3. 提供SPSS 的方差分析表，作出正确的结论。

4. 若方差分析结果有统计学意义，进一步比较的方法选择。

①表5.1 三种方案治疗后血红蛋白增加量(g/L)

B C 24 20 20 36 18 11 25 17 6 14 10 3 26 19 0 34 24 -1 23 4

---完全随机设计资料的方差分析(单因素方差分析)

②表5.3 三种方法治疗后血红蛋白增加量(g/L)

区组 A

疗法 B 疗法 C 疗法 1 16 18 18 2

15 16 20 3 19 27 35 4 13 13 23 5 11 14 17 6 10 8 12 7

5 3 8 8

-2

---随机区组设计资料的方差分析(双因素方差分析)

③表5.6 12名病人用A 、B 两法治疗的血压下降(kPa)

病人编号阶段 1

5.87

2.80 8.13 5.47 5.87

5.33

6.80

2.80

2.54

4.14

6.94

4.13

---两阶段交叉设计的方差分析

④表5.12 A 、B 两药治疗后病人红细胞增加数(1012/L)

A 药 B 药 A+B药不用药 1.3 0.9 2.1 0.8 1.2 1.1 2.2 0.9 1.1

1.0

2.0

0.7

---析因设计的方差分析

随机区组设计资料的方差分析表：

举例：

问题：

1. 指出该实验属何种设计？

2. 按照题义，把总变异分成几个部分，并说明各部分的意义。

3. 欲分析放置不同时间的血滤液所含血糖浓度间总的来讲有无变化，经计算，得检验统计量值为77.31，请确定 P 值，并作出判断。

4. 若进一步作两两比较，以“放置0分”组为共同对照，宜选择何检验方法？【答案】

1. 该实验属于随机区组设计；

2. 总变异(SS总) 可以分解为三个部分：处理组间变异(SS处理) 、区组间变异(SS区组) 和误差(SS误差) ： SS 总：反应所有观察值之间的变异；

①建立假设检验，确立检验水准：

对于处理组：H 0：四个不同时间血糖浓度的总体均数相等，即μ1=μ2=μ3=μ4；

H 1：四个总体均数不等或不全相等；α=0.05

对于区组：H 0：八个区组的总体均数相等，即μ1=μ2=„„μ8；

H 1：八个区组的总体均数不等或不全相等；α=0.05

②计算检验统计量F 值：

F 处理=MS处理/MS误差=0.9681/0.0125=77.31 F 区组=MS区组/MS误差=0.3569/0.0125=28.552 V 总=N-1=32-1=31 V 处理=k-1=4-1=3 V 区组=b-1=8-1=7

V 误差=(k-1)(b-1)=3×7=21 ③确定P 值，做出统计推断：

C=(ΣX)2/n=(169.56)2/32=898.45605

SS 总=ΣX 2-C=904.1214-898.45605=5.66535 V 总=n-1=32-1=31 V 处理=k-1=4-1=3 V 区组=b-1=8-1=7

V 误差=(k-1)(b-1)=3×7=21

问题：

1. 上述试验属何种试验设计？

2. 按照题义，把总变异分成哪几个部分？并说明各部分的意义。 3. 根据附页SPSS 计算结果，作出正确的结论。

【答案】

1. 此试验属于随机区组设计

2. 总变异可以分解为3部分，其各自的意义如下：

某试验研究加用可的松是否影响党参对ATP 酶的作用，结果如下表：（15分）

可的松影响党参对ATP 酶的试验结果

盐水可的松+盐水可的松+党参盐水党参+盐水 4.621 3.754 3.281 4.881 4.208 3.408 4.011 4.818 4.932 4.634 4.251 5.769 5.139 4.054 4.218 5.181 4.815 4.645 3.239

4.913

问题：

1. 上述试验属何种试验设计？

2. 按照题意，把总变异分成哪几个部分？并说明各部分的意义。 3. 若检验统计量F(可的松×党参)=2.704，请确定P 值，并作出判断。【答案】

1. 2×2析因分析 2. 变易分解：

SS 总=SS处理+SS 误差=SSA +SSB +SSAB +SS误差

=SS可的松+SS党参+SS可的松*党参+SS误差

SS 可的松：可的松的主效应 SS 党参：党参的主效应

SS 可的松*党参：可的松和党参的交互作用 SS 误差：完全由随机误差产生的变异

3.P>0.05，结论为可的松不影响党参对A TP 酶的作用。

SS df MS F P 党参 1 可的松 1 党参*可的松 1 2.704 >0.05 误差 16 总变异 19

四、多因素分析（15分）可能涉及范围：多元线性回归、logistic 回归、COX 回归。要求： 1. 提供某一资料，选择统计分析方法

2. 偏回归系数、标准偏回归系数、决定系数、校正决定系数、OR 等常用指标的意义与应用 3. 列回归方程举例：

(一) 多元线性回归

27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值如下表：

问题：

1. 欲分析影响空腹血糖浓度的有关因素，宜采用什么统计分析方法？

2. 已知甘油三酯(X2)、胰岛素(X3)和糖化血红蛋白(X4)是主要影响因素，现欲比较上述因素对血糖浓度的相对影响强度，应计算何种指标？

3. 分析其回归模型的好坏宜选用何种指标？ 4. 根据给出SPSS 结果，做出正确的结论。

【答案】

1. 此资料包含有四个变量，属于多变量计量资料，为多因素设计。要分析多因素对空腹血糖浓度的影响，宜采用多元线性回归分析。

ˆ=6. 5+0. 402X 2-0. 287X 3+0. 663X 4 5. 最优回归方程为：y

【答案具体分析】---多元线性回归

1. 此资料包含有四个变量，属于多变量计量资料，为多因素设计。要分析多因素对空腹血糖浓度的影响，宜采用多元线性回归分析。

2. 根据样本数据求得模型参数β0, β1, β2, β3, β4的估计值b0,b1,b2,b3,b4。β0称为截距，β1, β2…βm 称为偏回归系数。

ˆ=5. 943+0. 142X 1+0. 351X 2-0. 271X 3+0. 638X 4 求得回归方程为：y

3. 对总的回归方程的假设检验和评价：

检验所有自变量X1,X2,X3,X4作为整体与应变量Y 之间是否具有线性关系。 ⑴方差分析法：

H0：β1=β2=β3=β4=0；

H1：β1, β2, β3, β4不全为0；α=0.05

查表F 界值表得(P698)，得F 0.01(4,22) =4.31，F=8.278＞4.31，P ＜0.01

依据SPSS 结果，P=0.000

⑵决定系数R ：根据方差分析结果R =0.601，说明空腹血糖浓度变异的60%可由血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白的变化来解释。

⑶复相关系数(R)：表示表示m 个自变量共同对应变量的相关密切程度。R =0.775 ⑷各自变量的假设检验和评价：采用t 检验法

对每一个自变量的作用进行检验和衡量它们对Y 作用的大小。 H0：βj ＝0，即Y 与Xj 无线性相关关系

H1：βj ≠0，即Y 与Xj 有线性相关关系；α=0.05

通常每次只剔除关系最弱的一个因素。由方程中剔除因素的标准(通常α=0.10)

根据多元回归方程1的偏回归系数检验结果，X1(总胆固醇) 的P ＝0.701>0.05，Y 与X1无线性相关关系被剔除。

ˆ=6. 500+0. 402X 2-0. 287X 3+0. 663X 4 重新建立不包含剔除因素的回归方程2：y

对新建立的回归方程进行检验：

依据SPSS 结果，P ＝0.000

ˆ=6. 500+0. 402X 2-0. 287X 3+0. 663X 4 最后获得回归方程为：y

(二) logistic回归

4. 缓解出院后有巩固治疗患者一年内死亡的危险性是没有巩固治疗患者的多少？

【答案】

1. 该资料的应变量为二项分类变量，应选择多因素Logistic 回归分析； 2. X1的P ＝0.682>0.05，X1变量被剔除。

经统计分析得淋巴结浸润度(X2) 和缓解出院后巩固治疗(X3) 是有意义的影响因素，现计算得b 0= 1.642，b 2=0.707，b 3= -2.784，那么其Logistic 回归方程是：

1. 642+0. 707x 2-2. 784x 3

e P =

1+e 1. 642+0. 707x 2-2. 784x 3

（P 为一年内死亡的概率）

3.X3对应的EXP(B)=0.062的含义：

当某影响因素Xi 仅为两个水平(1暴露，0非暴露) ，则：OR i =exp(b i ) 当b i =0时，OR i =1，说明因素X i 对疾病发生不起作用；

当b i >0时，OR i >1，说明因素X i 对疾病发生是危险因素；当b i

即缓解出院后有巩固治疗患者一年内死亡的危险性是没有巩固治疗患者的0.32/0.88=4/11。

五、其它40分(每题≤10分)

提供某一素材，可能要求：

⏹ 选择正确的统计方法并简述理由 ⏹ 对错误进行分析，并予以纠正

⏹ 对某些数据、指标的含义作出正确的判断 ⏹ 正交试验表头设计及结果分析

可能涉及范围：变量的类型、计量资料的统计描述、相对数及其应用注意事项，总体率的区间估计，秩和检验，

直线相关与回归，随访资料的生存分析，正交试验设计。

举例：

(一) 正交试验表头设计及结果分析【06真题、03真题】第四题；【05真题】第八题；【04真题】第六题

1. 请对上述试验设计进行评价，若有错误则改正。（7分） 2. 请根据上述资料进行表头设计。【05真题、04真题】【答案】

1. 本试验有4个两水平的因素和3个交互作用需要考察，各项自由度之和为：4×(2-1)+3×(2-1)×(2-1)=7；

若选用L 8(2) 来作正交表表头设计作，只能安排的因素及其交互作用共7个自由度，就没有空白列来做计算

误差项，势必进行重复实验增加实验次数，本实验没有提到重复实验，因此选择L 8(2) 不合适。

2. 本试验有4个两水平的因素和3个交互作用需要考察，各项自由度之和为：4×(2-1)+3×(2-1)×(2-1)=7，

因此可选用L 12(2) 来安排试验方案。

表头设计

列号

因素数 7

1 A

2 B

3 AB

4 C

5 AC

6 BC

8 D

将A 因素放在第1列，B 因素放在第2列，查表L 12(211) 交互作用表可知，第1列与第2列的交互作用列是

第3列，于是将交互作用AB 放在第3列；这样第3列不能再安排其它因素，以免出现“混杂”。然后将C

表1 L 8(27) 交互作用列表

2 3 3 2 1 4 5 6 7 列号 1 2 3 4 5 1 5 4 7 6 1 6 7 4 5 2 3 7 6 5 4 3 2 1列与第2列的交互作用列是第3列，于是

列号因素

1 A

2 B

3 AB

4 C

5 空

6 BC

7 空

2. 列出试验方案：根据表头设计，将A,B,C 各列对应的数字”1”、”2”换成各因素的具体水平，得出试验方案列于表3。

表3 正交试验方案

试验号

1 2 3 4 5 6 7 8

因素

1(A) 1(A1) 1(A1) 1(A1) 1(A1) 2(A2) 2(A2) 2(A2) 2(A2)

2(B) 1(B1) 1(B1) 2(B2) 2(B2) 1(B1) 1(B1) 2(B2) 2(B2)

3(C) 1(C1) 2(C2) 1(C1) 2(C2) 1(C1) 2(C2) 1(C1) 2(C2)

3. 结果分析：按表3所列的试验方案进行试验，其结果见表4。

表中T i 、i 计算方法同前。此例为单独观测值正交试验，总变异划分为A 因素、B 因素、C 因素、AB 、BC 、

与误差变异5部分，平方和与自由度划分式为： SS T =SSA +SSB +SSC +SSAB +SSBC +SSe

df T =dfA +dfB +dfC +dfAB +dfBC +dfe ⑴计算各项平方和与自由度

矫正数：C=T2/n=6652/8=55278.1250

C =2-1=1 交互作用自由度：df AB =dfBC =(2-1)(2-1)=1

误差自由度：df e =dfT -df A -df C -df AB -df BC =7-1-1-1-1-1=2

表4 有交互作用的正交试验结果计算表

试验号 1 2 3 4 5 6 7 8 T 1 1因素

A 1 1 1 1 2 2 2 2 279 96.50

B 1 1 2 2 1 1 2 2 339 81.50

AB 1 1 2 2 2 2 1 1 233 108.00

C 1 2 1 2 1 2 1 2 353 78.00

BC 1 2 2 1 1 2 2 1 327 84.50

试验结果(%)* 55(y1) 38(y2) 97(y3) 89(y4) 122(y5) 124(y6) 79(y7) 61(y8) 665(T)

*试验结果以对照为100计

⑵列出方差分析表，进行F 检验

表5 方差分析表

变异来源

B C AB BC 误差总的

SS 1431.1250 21.1250 210.1250 4950.1250 15.1250 115.1250 6742.8750

df 1 1 1 1 1 2 7

MS 1431.1250 21.1250 210.1250 4950.1250 12.1250 57.6250

F 24.84*

F 0.05(1, 2) 18.51

F 0.01(1, 2) 98.49

先计算出A 与B 各水平组合的平均数：

表7 q 值与LSR 值表

ij 30

注意，此例因df e =2，F 检验与多重比较的灵敏度低。为了提高检验的灵敏度，可将F

(二) 随访资料的生存分析：【05真题】第四题；【04真题】第五题；【03真题】第六题

16例某癌症病人在不同时期经随机化分配到A 、B 两治疗组，并继续进行随访至1974年5月31日结束。资料如下表：(8分)

病人号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

治疗组 A B B A A B A A B B B A B B A B

是否该病死亡

Y Y Y 仍存活 Y 车祸死亡

Y 迁出 Y Y Y Y Y 失访仍存活 Y

截尾值 √ √ √ √ √

1. 上述资料随访时间单位以(日) 、(月) 、(年) 哪个较合适？为什么？ 2. 判断上述随访时间哪些属截尾值，写出观察对象编号。

1. 上述资料随访时间单位以月较合适。

3. 两样本生存曲线比较，宜选用对数秩检验(log-rank test)。

4.A 、B 治疗组随访资料生存时间的特征量(代表值) 一般用中位生存时间(median survival time)表示。

【06真题】第九题

某医生从2002年1月1日起对某医院收治的6名急性心肌梗塞病人进行跟踪观察，2002年3月25日结束观察，共12周。记录的资料如下：（5分）

1. 上述资料随访时间单位以(日) 、(月) 、(年) 哪个较合适？为什么？

2. 判断上述随访时间哪些属截尾值？写出观察对象编号。(答案可参考上一题)

(三) 计量资料的统计描述【06真题、05真题】第三题

某市100

名正常成人男性血红蛋白值(g/dL)频数分布表如下：（7分）

11.5- 12.0- 12.5- 13.0- 13.5- 14.0- 14.5- 组段

2 6 7 14 24 12 18 频数

1. 选用何种指标描述其集中位置和离散程度较好？为什么？

2. 估计该地正常成年男性血红蛋白的正常值范围。

SPSS 软件有关分析结果：

15.0- 10 15.5- 3 16.0- 4

【答案】

1. 此资料服从正态分布。原因：中位数和均数较接近，且偏度系数接近0。(偏度系数Skewness=0.044；峰度系数Kurtosis=-0.320；两个系数都小于1)

因此，该地正常成年男性血红蛋白的正常值范围为(12.014，16.045)g/dL 。

【制定参考值范围】

质量控制：为了控制实验中的测量(或实验) 误差，常以X ± 2S 作为上、下警戒值，以X ±3S 作为上、下控

制值。这样做的依据是：正常情况下测量(或实验) 误差服从正态分布。

(四) 相对数应用注意事项；率的标准化【06 真题】第七题

某地调查农村中不同人群的HbsAg 阳性情况

人群检查人数阳性人数

阳性百分比(%)

农民 1013 128 45.9 医务人员 21 4 1.5 中学生 99 15 5.4 小学生 326 51 18.3 学龄前儿童 437 76 27.2 其他 47 5 1.8 合计

1943

279

100.0

【答案】

人群检查人数阳性人数阳性百分比(%)

阳性率(%) 农民

1013 128 45.9 12.64 医务人员 21 4 1.5 19.05 中学生 99 15 5.4 15.15 小学生 326 51 18.3 15.64 学龄前儿童 437 76 27.2 17.39 其他 47 5 1.8 10.64

【05真题】第七题

男、女各年龄组高血压病例分布

年龄组男性

女性受检人数病例数发病率(%) 受检人数病例数发病率(%) 20~

333 5 1.5

712 4 0.6 30~ 301 4 1.3 142 9 6.3 40~ 517 64 12.4 185 27 14.6 50~ 576 93 16.0 61 9 14.8 60~ 12 12 100.0 - - - 1. 以上分析有很多不妥。

2. 使用直接法进行率的标准化；把两组年龄段人口合并作为标准组。

年龄组男性

女性

标准人口数原发病率(%)

预期发病率(%)

原发病率(%)

预期发病率(%)

20~ 1045 1.5 0.55 0.6 0.22 30~ 443 1.3 0.20 6.3 0.98 40~ 702 12.4 3.07 14.6 3.61 50~ 637 16 3.59 14.8 3.32 60~ 12 100 0.42 - 合计

2839

10.2

10.20

4.5

4.50

3. 可见，标准化以后，每个年龄组中男性、女性发病率相当。

(五) 秩和检验 (经验：凡等级在3个以上的等级资料一定用秩和检验) 【06真题】第八题

)

【答案】成组设计秩和检验

1. 此资料是单向有序分类资料，研究设计为完全随机设计 (又称成组设计) ；

2. 统计方法选用两独立样本比较的 Wilcoxon 符号秩和检验，其假设检验过程如下： ⑴建立假设检验，确立检验水准：

H0：慢性气管炎病人与正常人痰液中嗜酸性粒细胞总体分布相同；

H1：慢性气管炎病人与正常人痰液中嗜酸性粒细胞总体分布不同；α=0.05 ⑵计算检验统计量T 值： ①求各等级的秩次；

②求各等级的平均秩次；为秩次范围上下限相加除以2得平均秩次； ③求秩和；为各级的平均秩次与相应例数相乘； ④确定统计量T 值。

(1) (2) (3) (4) (5) (6) (7)＝(2)×(6) (8)＝(3)×(6) 结果正常人病人合计秩次范围平均秩次正常人秩和

病人秩和

－ 11 5 16 1～16 8.5 93.5 42.5 ＋ 10 18 28 17～44 30.5 305 549 ＋＋ 3 16 19 45～63 54 162 864 ＋＋＋ 0 5 5 64～68 66 0 330 合计

24（n1）

44(n2)

560.5(T1)

1785.5(T2)

得检验统计量值u=3.6217，查t 界值表，得单侧P

因此，可以认为慢性气管炎病人痰液中嗜酸性粒细胞(1785.5/44=40.6)高于正常人(560.5/24=23.4)。

【04真题】第八题

不同期次矽肺患者肺门密度级别分布

肺门密度级别

矽肺期次 + ++ +++

合计 Ⅰ 43 188 14 245 Ⅱ 1 96 72 169 Ⅲ 6 17 55 78 合计

50 301

141 492

【答案】用等级相关分析

【双向有序属性不同的两分类变量相关分析】用等级相关分析，又称秩相关。 “有序分组资料的线性趋势检验”---考试不作要求

第9题[08分]__秩和检验

相关文章