偏态分布的激素水平影响因素分析
项目研究概况
在某个消化内科的科研项目中,研究中认为某种激素水平可能对胃癌的发生有一定的作用,因此设计了此研究,将病人按照临床病理诊断结果分为对照组和实验组(出现病变组)两组,并且采集如下指标作为分析因素。数据见激素水平.sav
1. 性别:男、女
2. 年龄:除记录实际年龄外,还要根据临床研究的习惯,按照小于45岁,
45~59岁、60岁及以上分为青年、中年和老年三组 3. 萎缩程度:分为轻度、中度和重度三级
4. 胃粘膜细胞肠化生程度:分为无、轻度、中度和重度四级
5. 研究者希望回答的研究问题是:在控制了其他因素的作用滞后,激素水
平是否的确在两组间存在差异
6. 为了达成这一目标,又细分为两目标:激素水平和年龄、性别等有无关
联;在实验组中,激素水平和粘膜萎缩程度、肠化生程度等是否有关. 一、 数据理解 1. 单变量描述
(1) 单击“分析”——“表”——“设定表格”
(2) 将变量Group 拖入杭匡,同时选中性别、萎缩、肠化及年龄分组,
将其拖入列框
(3) “摘要统计量”选项组,选中“隐藏”复选框 (4) 确定
结果(分类变量的分布描述):
结论说明:年龄分组、性别在两组间大致频数大致差不多,但也存在微小的变化,而萎缩和肠化只在实验组中才有数据,对比研究时没有用。
连续变量的分布描述
(1) 单击“分析”——“描述统计”——“描述” (2) 选入年龄和激素水平 (3) 确定
结论说明:激素水平的标准差远大于均值,由于激素水平不可能小于0,则该变量可能是偏态分布,进一步直方图确认:
(1) 选择“图形”——“图表构造程序” (2) 将简单直方图拖入画布 (3) 将激素水平拖入X 轴 (4) 确定 结果:
结论说明:激素明显是右偏分布,且可能右端存在较大的极端值。这就给后续的数据分析提供一个线索:必须考虑所用的假设检验方法对数据的分布要求。
2. 变量关联探索
由于变量存在偏态分布,不能用之前假设检验的t 检验或者是z 检验来进行分析,这里采用bootstrap 抽样进行分析。
(1) 单击‘分析’-比较均值-均值 (2) 将激素水平选入“因变量列表”
(3) 将组别、性别和年龄分组选入“自变量列表” (4) 在‘选项’子对话框中,选中‘执行“bootstrap”复选框 (5) 确定 结果:
激素水平 * 组别
激素水平 组别
Statistic
偏差
Bootstrap 标准 误差
95% 置信区间 下限
均值
试验组
标准差 分组中值 均值
对照组
N 标准差 分组中值 均值 N
总计
标准差 分组中值
1.29723 .1950
-.15193 .0074
.53825 .0548
.36159 .1300
2.08999 .3550
.42893 .0950 .8794
31 1.82742 .3900 .5565
68
-.01749 .0022 -.0189
0 -.26821 .0101 -.0067
.11071 .0235 .3151
4 .83062 .1130 .1515
.20740 .0650 .4148
23 .34504 .2186 .3127
68
.62071 .1467 1.5850
39 3.02405 .6500 .9085
68
N
.2859
37
.0024
.0693
4
.1706
29
上限 .4422
45
a
a. 除非另行注明,bootstrap 结果将基于 1000 bootstrap 样本
结论说明:表中显示了实验组和对照组的激素水平中位数存在一定的差异,而且实验组的中位数的95%d C为0.065~0.1467,对照组为0.22~0.65,两者不重叠,说明确实存在统计学差异。此处只是粗略的分析。同理可以去分析性别、年龄分组的情况。
上述只是用置信区间来判断大致是否有统计学差异,如果要得到更为精确的结果,则需要使用秩和检验进行分析。
(1) 单击”分析“——”非参数检验“——”独立样本“
(2) “字段”选项卡:组别选入“组”对话框,激素水平选入“检验字段”列
表框 (3) 运行 结果:
结论说明:因为P 值小于0.05,说明激素水平的分布在两组间的确是有差异。 最后,对年龄和激素水平之间的关系进行探讨,利用散点图。 (1) 选择“图形”——图表构造程序 (2) 选中分组散点图拖入画布
(3) 将年龄选入X 轴,激素水平选入Y 轴,组别拖入设置颜色框
(4) 确定 结果:
结论说明:年龄和激素水平之间并未发现明显的数据关联,且年龄在两组间也没有太明显的差异,该散点图清晰地显示出激素水平的一个极大值,该数据会对常规模型造成很大影响。
二、 对因变量变换后的建模分析
由于因变量呈明显正偏态分布,因此我们不再考虑直接建模后再进行残差分析来评估模型适用性的分析思路,而是要更换方法。
(1) 单击“分析”——“描述统计”——“P-P 图” (2) 激素水平选入“变量”列表框
(3) 转换方式,选中“自然对数转换”复选框 (4) 确定。 结果:
说明:图中可以看出,经过自然对数变换后,激素水平的分布已经较为接近正态,虽然还是存在一定的差异,但已经可以考虑建模分析了。
下面生成对数变换后的新变量:“转换”——“计算变量”,输入
LNJISU=LN(jisu )
(1) 单击“分析”——“一般线性模型”——“单变量” (2) 将Lnjisu 选入“因变量”列表框
(3) 将组别、性别、选入“固定因子”列表框,年龄选入“协变量”列表框 (4) “模型”子对话框中,将组别、性别、年龄的主效应选入“模型”列表框 (5) “选项”子对话框,选择“残差图”和“缺乏拟合优度检验”„ (6) 确定 结果:
说明:
说明:上表给出的是模型的失拟检验效果,给出的是与饱和模型(即包括所有主效应和各阶交互效应的模型)相比,当前模型的预测效果是否存在差异,结果P 值为0.713,远大于0.05,因此当前模型不需要再考虑增加任何交互项了。
残差图中发现随着预测值的上升,残差不理想,但没有明显的离群点,进一
步分析残差图,有:
“保存”选项,预测值:为标准化预测值打钩,残差值:标准化
画出PRE_1和ZRE_1的散点图如下,发现标准化残差的绝对值不超过3,因此残差分布可以接受。
三、 秩变换分析
采用对数变换的方法解决了因变量的偏态分布的问题,但实际工作中,往往会碰到无法通过变量变换解决的问题,此时需要非参数统计分析方法,秩变换分析方法就是一个很好的工具。
(1) 选择“转换”——“个案排秩”菜单 (2) 将激素水平选入“变量”列表框 (3) 确定
完成后数据集中会生成新变量Rjisu ,其大小就是激素水平的未分组秩次。将Rjisu 变量作为因变量进行分析
(1) 单击“分析”——“一般线性模型”——“单变量” (2) 将Rjisu 选入“因变量”列表框
(3) 将组别、性别、选入“固定因子”列表框,年龄选入“协变量”列表框 (4) “模型”子对话框中,将组别、性别、年龄的主效应选入“模型”列表框 (5) “选项”子对话框,选择“残差图”和“缺乏拟合优度检验”„ (6) 确定
说明:
上表给出的结果中,p 值为0.884,解释同上,即当前模型中不需要再考虑增加任何交互项。
四、 项目总结与讨论
1. 性别、年龄对激素水平未发现有影响,其中后者无论是原始年龄,还是
年龄分组都无统计学意义
2. 实验组和对照组之间的激素水平存在差异,从平均水平看,实验组的激
素水平大致为对照组的3倍。
偏态分布的激素水平影响因素分析
项目研究概况
在某个消化内科的科研项目中,研究中认为某种激素水平可能对胃癌的发生有一定的作用,因此设计了此研究,将病人按照临床病理诊断结果分为对照组和实验组(出现病变组)两组,并且采集如下指标作为分析因素。数据见激素水平.sav
1. 性别:男、女
2. 年龄:除记录实际年龄外,还要根据临床研究的习惯,按照小于45岁,
45~59岁、60岁及以上分为青年、中年和老年三组 3. 萎缩程度:分为轻度、中度和重度三级
4. 胃粘膜细胞肠化生程度:分为无、轻度、中度和重度四级
5. 研究者希望回答的研究问题是:在控制了其他因素的作用滞后,激素水
平是否的确在两组间存在差异
6. 为了达成这一目标,又细分为两目标:激素水平和年龄、性别等有无关
联;在实验组中,激素水平和粘膜萎缩程度、肠化生程度等是否有关. 一、 数据理解 1. 单变量描述
(1) 单击“分析”——“表”——“设定表格”
(2) 将变量Group 拖入杭匡,同时选中性别、萎缩、肠化及年龄分组,
将其拖入列框
(3) “摘要统计量”选项组,选中“隐藏”复选框 (4) 确定
结果(分类变量的分布描述):
结论说明:年龄分组、性别在两组间大致频数大致差不多,但也存在微小的变化,而萎缩和肠化只在实验组中才有数据,对比研究时没有用。
连续变量的分布描述
(1) 单击“分析”——“描述统计”——“描述” (2) 选入年龄和激素水平 (3) 确定
结论说明:激素水平的标准差远大于均值,由于激素水平不可能小于0,则该变量可能是偏态分布,进一步直方图确认:
(1) 选择“图形”——“图表构造程序” (2) 将简单直方图拖入画布 (3) 将激素水平拖入X 轴 (4) 确定 结果:
结论说明:激素明显是右偏分布,且可能右端存在较大的极端值。这就给后续的数据分析提供一个线索:必须考虑所用的假设检验方法对数据的分布要求。
2. 变量关联探索
由于变量存在偏态分布,不能用之前假设检验的t 检验或者是z 检验来进行分析,这里采用bootstrap 抽样进行分析。
(1) 单击‘分析’-比较均值-均值 (2) 将激素水平选入“因变量列表”
(3) 将组别、性别和年龄分组选入“自变量列表” (4) 在‘选项’子对话框中,选中‘执行“bootstrap”复选框 (5) 确定 结果:
激素水平 * 组别
激素水平 组别
Statistic
偏差
Bootstrap 标准 误差
95% 置信区间 下限
均值
试验组
标准差 分组中值 均值
对照组
N 标准差 分组中值 均值 N
总计
标准差 分组中值
1.29723 .1950
-.15193 .0074
.53825 .0548
.36159 .1300
2.08999 .3550
.42893 .0950 .8794
31 1.82742 .3900 .5565
68
-.01749 .0022 -.0189
0 -.26821 .0101 -.0067
.11071 .0235 .3151
4 .83062 .1130 .1515
.20740 .0650 .4148
23 .34504 .2186 .3127
68
.62071 .1467 1.5850
39 3.02405 .6500 .9085
68
N
.2859
37
.0024
.0693
4
.1706
29
上限 .4422
45
a
a. 除非另行注明,bootstrap 结果将基于 1000 bootstrap 样本
结论说明:表中显示了实验组和对照组的激素水平中位数存在一定的差异,而且实验组的中位数的95%d C为0.065~0.1467,对照组为0.22~0.65,两者不重叠,说明确实存在统计学差异。此处只是粗略的分析。同理可以去分析性别、年龄分组的情况。
上述只是用置信区间来判断大致是否有统计学差异,如果要得到更为精确的结果,则需要使用秩和检验进行分析。
(1) 单击”分析“——”非参数检验“——”独立样本“
(2) “字段”选项卡:组别选入“组”对话框,激素水平选入“检验字段”列
表框 (3) 运行 结果:
结论说明:因为P 值小于0.05,说明激素水平的分布在两组间的确是有差异。 最后,对年龄和激素水平之间的关系进行探讨,利用散点图。 (1) 选择“图形”——图表构造程序 (2) 选中分组散点图拖入画布
(3) 将年龄选入X 轴,激素水平选入Y 轴,组别拖入设置颜色框
(4) 确定 结果:
结论说明:年龄和激素水平之间并未发现明显的数据关联,且年龄在两组间也没有太明显的差异,该散点图清晰地显示出激素水平的一个极大值,该数据会对常规模型造成很大影响。
二、 对因变量变换后的建模分析
由于因变量呈明显正偏态分布,因此我们不再考虑直接建模后再进行残差分析来评估模型适用性的分析思路,而是要更换方法。
(1) 单击“分析”——“描述统计”——“P-P 图” (2) 激素水平选入“变量”列表框
(3) 转换方式,选中“自然对数转换”复选框 (4) 确定。 结果:
说明:图中可以看出,经过自然对数变换后,激素水平的分布已经较为接近正态,虽然还是存在一定的差异,但已经可以考虑建模分析了。
下面生成对数变换后的新变量:“转换”——“计算变量”,输入
LNJISU=LN(jisu )
(1) 单击“分析”——“一般线性模型”——“单变量” (2) 将Lnjisu 选入“因变量”列表框
(3) 将组别、性别、选入“固定因子”列表框,年龄选入“协变量”列表框 (4) “模型”子对话框中,将组别、性别、年龄的主效应选入“模型”列表框 (5) “选项”子对话框,选择“残差图”和“缺乏拟合优度检验”„ (6) 确定 结果:
说明:
说明:上表给出的是模型的失拟检验效果,给出的是与饱和模型(即包括所有主效应和各阶交互效应的模型)相比,当前模型的预测效果是否存在差异,结果P 值为0.713,远大于0.05,因此当前模型不需要再考虑增加任何交互项了。
残差图中发现随着预测值的上升,残差不理想,但没有明显的离群点,进一
步分析残差图,有:
“保存”选项,预测值:为标准化预测值打钩,残差值:标准化
画出PRE_1和ZRE_1的散点图如下,发现标准化残差的绝对值不超过3,因此残差分布可以接受。
三、 秩变换分析
采用对数变换的方法解决了因变量的偏态分布的问题,但实际工作中,往往会碰到无法通过变量变换解决的问题,此时需要非参数统计分析方法,秩变换分析方法就是一个很好的工具。
(1) 选择“转换”——“个案排秩”菜单 (2) 将激素水平选入“变量”列表框 (3) 确定
完成后数据集中会生成新变量Rjisu ,其大小就是激素水平的未分组秩次。将Rjisu 变量作为因变量进行分析
(1) 单击“分析”——“一般线性模型”——“单变量” (2) 将Rjisu 选入“因变量”列表框
(3) 将组别、性别、选入“固定因子”列表框,年龄选入“协变量”列表框 (4) “模型”子对话框中,将组别、性别、年龄的主效应选入“模型”列表框 (5) “选项”子对话框,选择“残差图”和“缺乏拟合优度检验”„ (6) 确定
说明:
上表给出的结果中,p 值为0.884,解释同上,即当前模型中不需要再考虑增加任何交互项。
四、 项目总结与讨论
1. 性别、年龄对激素水平未发现有影响,其中后者无论是原始年龄,还是
年龄分组都无统计学意义
2. 实验组和对照组之间的激素水平存在差异,从平均水平看,实验组的激
素水平大致为对照组的3倍。