摘要:在代谢组学现有数据分析方法的基础上,引入了多元统计分析方法中的多元t检验、类间距计算、组内离差平方和计算等统计方法。结合4个代谢组学研究实例,演示了新引入的统计方法的应用。结果表明: 多元t检验可以解答应激组和对照组的代谢组水平之间是否存在“系统差别”,类间距可以提供差别大小,组内离差平方和可以提供离散程度等信息。这些新信息的获取能对模式识别分析所得出的得分图(Scores plot)作进一步的解释,并为后续实验设计提供参考。
关键词:代谢组学; 模式识别; 多元统计分析; 显著性检验;类间距; 离差平方和; 核磁共振
1引言
代谢组学是继基因组学、转录组学、蛋白质组学后,生命科学研究领域出现的又一门新兴组学技术[1],它为系统研究分子病理、基因功能和系统生物学提供了一种强有力的技术手段。
代谢组学通常以生物样品(体液、组织提取物等)中的代谢物为检测对象,以核磁共振(NMR)[2,3]、高效液相色谱(HPLC)[4]、质谱(MS)[5]和傅立叶变换红外光谱(FTIR)[6,7],以及色谱质谱核磁共振联用技术[8,9]等为检测手段。由于生物样品组成复杂[10],所获得的各种谱图中包含着海量信息,很难直观地从谱中获得全部有效信息。计算机技术的飞速发展使得快速分析、处理大量数据成为可能。代谢组学研究中最常用的数据分析方法是模式识别,包括非监督的方法(如主成分分析(PCA))和监督的方法(如偏最小二乘法(PLS)),及在此基础上发展的优化的方法, 如偏最小二乘法辨别分析(PLSDA)、正交偏最小二乘法辨别分析(OPLSDA)[11,12]等。
模式识别分析是将样本投射到低维空间中,实现对数据的降维,从而使复杂的数据可视化。在该低维空间中,映射点分布的不同反映了样本组成上的差异。因此,对于分布于低维(二维或者三维)的主成分空间中不同样本的映射点之间是否存在显著性差异的判别尤为重要。当两组样本在空间中映射的分布区域相互靠近,甚至出现部分重叠时,仅凭主观印象作出判断很容易出现错误。在代谢组学研究中,外界刺激能同时引起体液或者生物组织中多种代谢物含量的变化, 这些变化通常是相互关联、互相影响的,单一代谢物的统计变化特异性最差,不能正确、全面地反映整体的变化情况。要提高检出率和特异性,需采用多种实验方法对样本进行检测, 并衡量组间差异和定量判别样品分散程度。各组样本的分散程度所反映的是样本由于自身个体差异、对外来刺激响应的个体差异、实验仪器误差、主观数据处理等因素造成影响。对分散度的准确描述将有助于评价实验对象的选择是否合适及个体差异的影响。
对于分布于二维或三维空间中点的位置需要用2个变量或3个变量描述,因此有必要引入多元统计分析方法,从而获得更加丰富的数据信息,以此提高判断的全面性、准确性和科学性。本研究将多元统计分析中的多元t检验、类间距计算及组内离差平方和计算等方法应用到代谢组学研究中,期望能为判别低维空间中的两组或多组点之间是否存在显著性差异,量化存在显著性差异的组间的差异大小、组内样本分散程度,提供客观、准确的判别方法。
2多元t检验、类间距和组内离差平方和计算在代谢组学中的应用
2.1多元t检验、类间距和组内离差平方和计算在代谢组学中的实现过程
将多元t检验、类间距离计算及组内离差平方和计算等多元统计方法引入代谢组学数据分析的过程: 第一步,对大量样本的谱学数据(MS、NMR等)进行模式识别处理(如PCA),得到二维或三维空间得分图[13]。得分图中每一个数据点对应一个样本,其坐标值反映的是由原始代谢物重新线性组合后的2种或3种“新的代谢物”(主成分)的含量。第二步,以得分图中提取的各个样本的坐标值为对象,进行多元t检验,以此判断组间是否存在显著性差异。第三步,若组间存在显著差异(p
摘要:在代谢组学现有数据分析方法的基础上,引入了多元统计分析方法中的多元t检验、类间距计算、组内离差平方和计算等统计方法。结合4个代谢组学研究实例,演示了新引入的统计方法的应用。结果表明: 多元t检验可以解答应激组和对照组的代谢组水平之间是否存在“系统差别”,类间距可以提供差别大小,组内离差平方和可以提供离散程度等信息。这些新信息的获取能对模式识别分析所得出的得分图(Scores plot)作进一步的解释,并为后续实验设计提供参考。
关键词:代谢组学; 模式识别; 多元统计分析; 显著性检验;类间距; 离差平方和; 核磁共振
1引言
代谢组学是继基因组学、转录组学、蛋白质组学后,生命科学研究领域出现的又一门新兴组学技术[1],它为系统研究分子病理、基因功能和系统生物学提供了一种强有力的技术手段。
代谢组学通常以生物样品(体液、组织提取物等)中的代谢物为检测对象,以核磁共振(NMR)[2,3]、高效液相色谱(HPLC)[4]、质谱(MS)[5]和傅立叶变换红外光谱(FTIR)[6,7],以及色谱质谱核磁共振联用技术[8,9]等为检测手段。由于生物样品组成复杂[10],所获得的各种谱图中包含着海量信息,很难直观地从谱中获得全部有效信息。计算机技术的飞速发展使得快速分析、处理大量数据成为可能。代谢组学研究中最常用的数据分析方法是模式识别,包括非监督的方法(如主成分分析(PCA))和监督的方法(如偏最小二乘法(PLS)),及在此基础上发展的优化的方法, 如偏最小二乘法辨别分析(PLSDA)、正交偏最小二乘法辨别分析(OPLSDA)[11,12]等。
模式识别分析是将样本投射到低维空间中,实现对数据的降维,从而使复杂的数据可视化。在该低维空间中,映射点分布的不同反映了样本组成上的差异。因此,对于分布于低维(二维或者三维)的主成分空间中不同样本的映射点之间是否存在显著性差异的判别尤为重要。当两组样本在空间中映射的分布区域相互靠近,甚至出现部分重叠时,仅凭主观印象作出判断很容易出现错误。在代谢组学研究中,外界刺激能同时引起体液或者生物组织中多种代谢物含量的变化, 这些变化通常是相互关联、互相影响的,单一代谢物的统计变化特异性最差,不能正确、全面地反映整体的变化情况。要提高检出率和特异性,需采用多种实验方法对样本进行检测, 并衡量组间差异和定量判别样品分散程度。各组样本的分散程度所反映的是样本由于自身个体差异、对外来刺激响应的个体差异、实验仪器误差、主观数据处理等因素造成影响。对分散度的准确描述将有助于评价实验对象的选择是否合适及个体差异的影响。
对于分布于二维或三维空间中点的位置需要用2个变量或3个变量描述,因此有必要引入多元统计分析方法,从而获得更加丰富的数据信息,以此提高判断的全面性、准确性和科学性。本研究将多元统计分析中的多元t检验、类间距计算及组内离差平方和计算等方法应用到代谢组学研究中,期望能为判别低维空间中的两组或多组点之间是否存在显著性差异,量化存在显著性差异的组间的差异大小、组内样本分散程度,提供客观、准确的判别方法。
2多元t检验、类间距和组内离差平方和计算在代谢组学中的应用
2.1多元t检验、类间距和组内离差平方和计算在代谢组学中的实现过程
将多元t检验、类间距离计算及组内离差平方和计算等多元统计方法引入代谢组学数据分析的过程: 第一步,对大量样本的谱学数据(MS、NMR等)进行模式识别处理(如PCA),得到二维或三维空间得分图[13]。得分图中每一个数据点对应一个样本,其坐标值反映的是由原始代谢物重新线性组合后的2种或3种“新的代谢物”(主成分)的含量。第二步,以得分图中提取的各个样本的坐标值为对象,进行多元t检验,以此判断组间是否存在显著性差异。第三步,若组间存在显著差异(p