偏态分布的激素水平影响因素分析

偏态分布的激素水平影响因素分析

项目研究概况

在某个消化内科的科研项目中,研究中认为某种激素水平可能对胃癌的发生有一定的作用,因此设计了此研究,将病人按照临床病理诊断结果分为对照组和实验组(出现病变组)两组,并且采集如下指标作为分析因素。数据见激素水平.sav

1. 性别:男、女

2. 年龄:除记录实际年龄外,还要根据临床研究的习惯,按照小于45岁,

45~59岁、60岁及以上分为青年、中年和老年三组 3. 萎缩程度:分为轻度、中度和重度三级

4. 胃粘膜细胞肠化生程度:分为无、轻度、中度和重度四级

5. 研究者希望回答的研究问题是:在控制了其他因素的作用滞后,激素水

平是否的确在两组间存在差异

6. 为了达成这一目标,又细分为两目标:激素水平和年龄、性别等有无关

联;在实验组中,激素水平和粘膜萎缩程度、肠化生程度等是否有关. 一、 数据理解 1. 单变量描述

(1) 单击“分析”——“表”——“设定表格”

(2) 将变量Group 拖入杭匡,同时选中性别、萎缩、肠化及年龄分组,

将其拖入列框

(3) “摘要统计量”选项组,选中“隐藏”复选框 (4) 确定

结果(分类变量的分布描述):

结论说明:年龄分组、性别在两组间大致频数大致差不多,但也存在微小的变化,而萎缩和肠化只在实验组中才有数据,对比研究时没有用。

连续变量的分布描述

(1) 单击“分析”——“描述统计”——“描述” (2) 选入年龄和激素水平 (3) 确定

结论说明:激素水平的标准差远大于均值,由于激素水平不可能小于0,则该变量可能是偏态分布,进一步直方图确认:

(1) 选择“图形”——“图表构造程序” (2) 将简单直方图拖入画布 (3) 将激素水平拖入X 轴 (4) 确定 结果:

结论说明:激素明显是右偏分布,且可能右端存在较大的极端值。这就给后续的数据分析提供一个线索:必须考虑所用的假设检验方法对数据的分布要求。

2. 变量关联探索

由于变量存在偏态分布,不能用之前假设检验的t 检验或者是z 检验来进行分析,这里采用bootstrap 抽样进行分析。

(1) 单击‘分析’-比较均值-均值 (2) 将激素水平选入“因变量列表”

(3) 将组别、性别和年龄分组选入“自变量列表” (4) 在‘选项’子对话框中,选中‘执行“bootstrap”复选框 (5) 确定 结果:

激素水平 * 组别

激素水平 组别

Statistic

偏差

Bootstrap 标准 误差

95% 置信区间 下限

均值

试验组

标准差 分组中值 均值

对照组

N 标准差 分组中值 均值 N

总计

标准差 分组中值

1.29723 .1950

-.15193 .0074

.53825 .0548

.36159 .1300

2.08999 .3550

.42893 .0950 .8794

31 1.82742 .3900 .5565

68

-.01749 .0022 -.0189

0 -.26821 .0101 -.0067

.11071 .0235 .3151

4 .83062 .1130 .1515

.20740 .0650 .4148

23 .34504 .2186 .3127

68

.62071 .1467 1.5850

39 3.02405 .6500 .9085

68

N

.2859

37

.0024

.0693

4

.1706

29

上限 .4422

45

a

a. 除非另行注明,bootstrap 结果将基于 1000 bootstrap 样本

结论说明:表中显示了实验组和对照组的激素水平中位数存在一定的差异,而且实验组的中位数的95%d C为0.065~0.1467,对照组为0.22~0.65,两者不重叠,说明确实存在统计学差异。此处只是粗略的分析。同理可以去分析性别、年龄分组的情况。

上述只是用置信区间来判断大致是否有统计学差异,如果要得到更为精确的结果,则需要使用秩和检验进行分析。

(1) 单击”分析“——”非参数检验“——”独立样本“

(2) “字段”选项卡:组别选入“组”对话框,激素水平选入“检验字段”列

表框 (3) 运行 结果:

结论说明:因为P 值小于0.05,说明激素水平的分布在两组间的确是有差异。 最后,对年龄和激素水平之间的关系进行探讨,利用散点图。 (1) 选择“图形”——图表构造程序 (2) 选中分组散点图拖入画布

(3) 将年龄选入X 轴,激素水平选入Y 轴,组别拖入设置颜色框

(4) 确定 结果:

结论说明:年龄和激素水平之间并未发现明显的数据关联,且年龄在两组间也没有太明显的差异,该散点图清晰地显示出激素水平的一个极大值,该数据会对常规模型造成很大影响。

二、 对因变量变换后的建模分析

由于因变量呈明显正偏态分布,因此我们不再考虑直接建模后再进行残差分析来评估模型适用性的分析思路,而是要更换方法。

(1) 单击“分析”——“描述统计”——“P-P 图” (2) 激素水平选入“变量”列表框

(3) 转换方式,选中“自然对数转换”复选框 (4) 确定。 结果:

说明:图中可以看出,经过自然对数变换后,激素水平的分布已经较为接近正态,虽然还是存在一定的差异,但已经可以考虑建模分析了。

下面生成对数变换后的新变量:“转换”——“计算变量”,输入

LNJISU=LN(jisu )

(1) 单击“分析”——“一般线性模型”——“单变量” (2) 将Lnjisu 选入“因变量”列表框

(3) 将组别、性别、选入“固定因子”列表框,年龄选入“协变量”列表框 (4) “模型”子对话框中,将组别、性别、年龄的主效应选入“模型”列表框 (5) “选项”子对话框,选择“残差图”和“缺乏拟合优度检验”„ (6) 确定 结果:

说明:

说明:上表给出的是模型的失拟检验效果,给出的是与饱和模型(即包括所有主效应和各阶交互效应的模型)相比,当前模型的预测效果是否存在差异,结果P 值为0.713,远大于0.05,因此当前模型不需要再考虑增加任何交互项了。

残差图中发现随着预测值的上升,残差不理想,但没有明显的离群点,进一

步分析残差图,有:

“保存”选项,预测值:为标准化预测值打钩,残差值:标准化

画出PRE_1和ZRE_1的散点图如下,发现标准化残差的绝对值不超过3,因此残差分布可以接受。

三、 秩变换分析

采用对数变换的方法解决了因变量的偏态分布的问题,但实际工作中,往往会碰到无法通过变量变换解决的问题,此时需要非参数统计分析方法,秩变换分析方法就是一个很好的工具。

(1) 选择“转换”——“个案排秩”菜单 (2) 将激素水平选入“变量”列表框 (3) 确定

完成后数据集中会生成新变量Rjisu ,其大小就是激素水平的未分组秩次。将Rjisu 变量作为因变量进行分析

(1) 单击“分析”——“一般线性模型”——“单变量” (2) 将Rjisu 选入“因变量”列表框

(3) 将组别、性别、选入“固定因子”列表框,年龄选入“协变量”列表框 (4) “模型”子对话框中,将组别、性别、年龄的主效应选入“模型”列表框 (5) “选项”子对话框,选择“残差图”和“缺乏拟合优度检验”„ (6) 确定

说明:

上表给出的结果中,p 值为0.884,解释同上,即当前模型中不需要再考虑增加任何交互项。

四、 项目总结与讨论

1. 性别、年龄对激素水平未发现有影响,其中后者无论是原始年龄,还是

年龄分组都无统计学意义

2. 实验组和对照组之间的激素水平存在差异,从平均水平看,实验组的激

素水平大致为对照组的3倍。

偏态分布的激素水平影响因素分析

项目研究概况

在某个消化内科的科研项目中,研究中认为某种激素水平可能对胃癌的发生有一定的作用,因此设计了此研究,将病人按照临床病理诊断结果分为对照组和实验组(出现病变组)两组,并且采集如下指标作为分析因素。数据见激素水平.sav

1. 性别:男、女

2. 年龄:除记录实际年龄外,还要根据临床研究的习惯,按照小于45岁,

45~59岁、60岁及以上分为青年、中年和老年三组 3. 萎缩程度:分为轻度、中度和重度三级

4. 胃粘膜细胞肠化生程度:分为无、轻度、中度和重度四级

5. 研究者希望回答的研究问题是:在控制了其他因素的作用滞后,激素水

平是否的确在两组间存在差异

6. 为了达成这一目标,又细分为两目标:激素水平和年龄、性别等有无关

联;在实验组中,激素水平和粘膜萎缩程度、肠化生程度等是否有关. 一、 数据理解 1. 单变量描述

(1) 单击“分析”——“表”——“设定表格”

(2) 将变量Group 拖入杭匡,同时选中性别、萎缩、肠化及年龄分组,

将其拖入列框

(3) “摘要统计量”选项组,选中“隐藏”复选框 (4) 确定

结果(分类变量的分布描述):

结论说明:年龄分组、性别在两组间大致频数大致差不多,但也存在微小的变化,而萎缩和肠化只在实验组中才有数据,对比研究时没有用。

连续变量的分布描述

(1) 单击“分析”——“描述统计”——“描述” (2) 选入年龄和激素水平 (3) 确定

结论说明:激素水平的标准差远大于均值,由于激素水平不可能小于0,则该变量可能是偏态分布,进一步直方图确认:

(1) 选择“图形”——“图表构造程序” (2) 将简单直方图拖入画布 (3) 将激素水平拖入X 轴 (4) 确定 结果:

结论说明:激素明显是右偏分布,且可能右端存在较大的极端值。这就给后续的数据分析提供一个线索:必须考虑所用的假设检验方法对数据的分布要求。

2. 变量关联探索

由于变量存在偏态分布,不能用之前假设检验的t 检验或者是z 检验来进行分析,这里采用bootstrap 抽样进行分析。

(1) 单击‘分析’-比较均值-均值 (2) 将激素水平选入“因变量列表”

(3) 将组别、性别和年龄分组选入“自变量列表” (4) 在‘选项’子对话框中,选中‘执行“bootstrap”复选框 (5) 确定 结果:

激素水平 * 组别

激素水平 组别

Statistic

偏差

Bootstrap 标准 误差

95% 置信区间 下限

均值

试验组

标准差 分组中值 均值

对照组

N 标准差 分组中值 均值 N

总计

标准差 分组中值

1.29723 .1950

-.15193 .0074

.53825 .0548

.36159 .1300

2.08999 .3550

.42893 .0950 .8794

31 1.82742 .3900 .5565

68

-.01749 .0022 -.0189

0 -.26821 .0101 -.0067

.11071 .0235 .3151

4 .83062 .1130 .1515

.20740 .0650 .4148

23 .34504 .2186 .3127

68

.62071 .1467 1.5850

39 3.02405 .6500 .9085

68

N

.2859

37

.0024

.0693

4

.1706

29

上限 .4422

45

a

a. 除非另行注明,bootstrap 结果将基于 1000 bootstrap 样本

结论说明:表中显示了实验组和对照组的激素水平中位数存在一定的差异,而且实验组的中位数的95%d C为0.065~0.1467,对照组为0.22~0.65,两者不重叠,说明确实存在统计学差异。此处只是粗略的分析。同理可以去分析性别、年龄分组的情况。

上述只是用置信区间来判断大致是否有统计学差异,如果要得到更为精确的结果,则需要使用秩和检验进行分析。

(1) 单击”分析“——”非参数检验“——”独立样本“

(2) “字段”选项卡:组别选入“组”对话框,激素水平选入“检验字段”列

表框 (3) 运行 结果:

结论说明:因为P 值小于0.05,说明激素水平的分布在两组间的确是有差异。 最后,对年龄和激素水平之间的关系进行探讨,利用散点图。 (1) 选择“图形”——图表构造程序 (2) 选中分组散点图拖入画布

(3) 将年龄选入X 轴,激素水平选入Y 轴,组别拖入设置颜色框

(4) 确定 结果:

结论说明:年龄和激素水平之间并未发现明显的数据关联,且年龄在两组间也没有太明显的差异,该散点图清晰地显示出激素水平的一个极大值,该数据会对常规模型造成很大影响。

二、 对因变量变换后的建模分析

由于因变量呈明显正偏态分布,因此我们不再考虑直接建模后再进行残差分析来评估模型适用性的分析思路,而是要更换方法。

(1) 单击“分析”——“描述统计”——“P-P 图” (2) 激素水平选入“变量”列表框

(3) 转换方式,选中“自然对数转换”复选框 (4) 确定。 结果:

说明:图中可以看出,经过自然对数变换后,激素水平的分布已经较为接近正态,虽然还是存在一定的差异,但已经可以考虑建模分析了。

下面生成对数变换后的新变量:“转换”——“计算变量”,输入

LNJISU=LN(jisu )

(1) 单击“分析”——“一般线性模型”——“单变量” (2) 将Lnjisu 选入“因变量”列表框

(3) 将组别、性别、选入“固定因子”列表框,年龄选入“协变量”列表框 (4) “模型”子对话框中,将组别、性别、年龄的主效应选入“模型”列表框 (5) “选项”子对话框,选择“残差图”和“缺乏拟合优度检验”„ (6) 确定 结果:

说明:

说明:上表给出的是模型的失拟检验效果,给出的是与饱和模型(即包括所有主效应和各阶交互效应的模型)相比,当前模型的预测效果是否存在差异,结果P 值为0.713,远大于0.05,因此当前模型不需要再考虑增加任何交互项了。

残差图中发现随着预测值的上升,残差不理想,但没有明显的离群点,进一

步分析残差图,有:

“保存”选项,预测值:为标准化预测值打钩,残差值:标准化

画出PRE_1和ZRE_1的散点图如下,发现标准化残差的绝对值不超过3,因此残差分布可以接受。

三、 秩变换分析

采用对数变换的方法解决了因变量的偏态分布的问题,但实际工作中,往往会碰到无法通过变量变换解决的问题,此时需要非参数统计分析方法,秩变换分析方法就是一个很好的工具。

(1) 选择“转换”——“个案排秩”菜单 (2) 将激素水平选入“变量”列表框 (3) 确定

完成后数据集中会生成新变量Rjisu ,其大小就是激素水平的未分组秩次。将Rjisu 变量作为因变量进行分析

(1) 单击“分析”——“一般线性模型”——“单变量” (2) 将Rjisu 选入“因变量”列表框

(3) 将组别、性别、选入“固定因子”列表框,年龄选入“协变量”列表框 (4) “模型”子对话框中,将组别、性别、年龄的主效应选入“模型”列表框 (5) “选项”子对话框,选择“残差图”和“缺乏拟合优度检验”„ (6) 确定

说明:

上表给出的结果中,p 值为0.884,解释同上,即当前模型中不需要再考虑增加任何交互项。

四、 项目总结与讨论

1. 性别、年龄对激素水平未发现有影响,其中后者无论是原始年龄,还是

年龄分组都无统计学意义

2. 实验组和对照组之间的激素水平存在差异,从平均水平看,实验组的激

素水平大致为对照组的3倍。


相关文章

  • 一文解析临床研究中的偏倚及控制方法
  • 一文解析临床研究中的偏倚及控制方法 在临床科研过程中,我们都致力于一点,就是让分析所得的关联性(association)尽量接近病因性(causation).除了应用统计学方法以外,非常重要的就是从根本上分析造成偏倚(bias)的原因并控制 ...查看


  • 生物必修三第三章第一节
  • 必修3 第1章 人体的内环境与稳态 考点一 内环境的成分及相互关系 1. 各组分间的关系: 3. 几种常考细胞所处的内环境: [提分技法]"四看法"排除不属于内环境的成分 一看是否是细胞内特有的物质,如血红蛋白.胞内酶( ...查看


  • 从美国胸科学会指南看呼出气一氧化氮测定的临床应用_刘传合
  • 临床儿科杂志第30卷第8期2012年8月JClinPediatrVol.30No.8Aug.2012 ·707· doi:10.3969/j.issn.1000-3606.2012.08.003 ·专家笔谈· 从美国胸科学会指南看呼出气一氧 ...查看


  • 高中生物第二章[生物个体的稳态]单元模拟练习(含解析)苏教版必修-精
  • <生物个体的稳态> 一.选择题 1.下列生理过程不能发生在人体内环境中的是( ) A .葡萄糖不完全氧化分解产生乳酸 B .兴奋传递过程中神经递质与受体结合 C .抗体与相应抗原特异性结合 D .激素与靶细胞的结合 2.下列说法 ...查看


  • 高中生物稳态与环境复习知识点
  • 高中生物必修3复习提纲 第1章 人体的内环境与稳态 第1节 细胞生活的环境 一.内环境 2.各种细胞的内环境 ①血细胞直接生活的环境:血浆:②毛细血管壁细胞直接生活的环境:血浆和组织液:③毛细淋巴壁细胞直接生活的环境:淋巴和组织液:④体内绝 ...查看


  • 高二生物月考答案
  • 高二生物考试题 参 考 答 案 一.单项选择题(共60分) 1.A 2.D 3.D 4.D 5.C 6.C 7.B 8.C 9.A 10.C 11.C 12.D 13.A 14.C 15.D 16.D 17.D 18.B 19.C 20.D ...查看


  • 高中生物必修三说课稿
  • 必修三 一 1 人体的稳态 各位评委老师下午好!我叫.今天我的说课题目是< >,下面我将从教材分析.教法学法.教学过程.板书设计和教学反思五个方面来展开介绍: 一.教材分析 1.本节所处的地位与作用: <>是苏教版高 ...查看


  • 老年人用药特点及合理用药原则
  • 老年人用药特点及合理用药原则 (初晓艺 林鑫) 第一部分 概述 老年人一般指年龄超过65岁以上的人.随着社会经济的发展和医学的进步,人民生活水平和医疗保健水平的普遍提高,人类的寿命也随之延长,人口老龄化日益明显.我国巳逐步进入老龄化社会,预 ...查看


  • 第9题[08分]__秩和检验
  • 一.两组计量资料比较(15分) 题干由试题和相关SPSS 分析结果组成 1. 根据资料选择正确的统计检验方法: 2. 请写出假设检验步骤:检验假设,检验水准,根据SPSS 结果选择正确的统计量值和P 值.并作出结果判断. 3. 说明:正态性 ...查看


热门内容