代谢组学研究中样本间区分度的简易评判方法

  摘要:在代谢组学现有数据分析方法的基础上,引入了多元统计分析方法中的多元t检验、类间距计算、组内离差平方和计算等统计方法。结合4个代谢组学研究实例,演示了新引入的统计方法的应用。结果表明: 多元t检验可以解答应激组和对照组的代谢组水平之间是否存在“系统差别”,类间距可以提供差别大小,组内离差平方和可以提供离散程度等信息。这些新信息的获取能对模式识别分析所得出的得分图(Scores plot)作进一步的解释,并为后续实验设计提供参考。

  关键词:代谢组学; 模式识别; 多元统计分析; 显著性检验;类间距; 离差平方和; 核磁共振

  1引言

  代谢组学是继基因组学、转录组学、蛋白质组学后,生命科学研究领域出现的又一门新兴组学技术[1],它为系统研究分子病理、基因功能和系统生物学提供了一种强有力的技术手段。

  代谢组学通常以生物样品(体液、组织提取物等)中的代谢物为检测对象,以核磁共振(NMR)[2,3]、高效液相色谱(HPLC)[4]、质谱(MS)[5]和傅立叶变换红外光谱(FTIR)[6,7],以及色谱质谱核磁共振联用技术[8,9]等为检测手段。由于生物样品组成复杂[10],所获得的各种谱图中包含着海量信息,很难直观地从谱中获得全部有效信息。计算机技术的飞速发展使得快速分析、处理大量数据成为可能。代谢组学研究中最常用的数据分析方法是模式识别,包括非监督的方法(如主成分分析(PCA))和监督的方法(如偏最小二乘法(PLS)),及在此基础上发展的优化的方法, 如偏最小二乘法辨别分析(PLSDA)、正交偏最小二乘法辨别分析(OPLSDA)[11,12]等。

  模式识别分析是将样本投射到低维空间中,实现对数据的降维,从而使复杂的数据可视化。在该低维空间中,映射点分布的不同反映了样本组成上的差异。因此,对于分布于低维(二维或者三维)的主成分空间中不同样本的映射点之间是否存在显著性差异的判别尤为重要。当两组样本在空间中映射的分布区域相互靠近,甚至出现部分重叠时,仅凭主观印象作出判断很容易出现错误。在代谢组学研究中,外界刺激能同时引起体液或者生物组织中多种代谢物含量的变化, 这些变化通常是相互关联、互相影响的,单一代谢物的统计变化特异性最差,不能正确、全面地反映整体的变化情况。要提高检出率和特异性,需采用多种实验方法对样本进行检测, 并衡量组间差异和定量判别样品分散程度。各组样本的分散程度所反映的是样本由于自身个体差异、对外来刺激响应的个体差异、实验仪器误差、主观数据处理等因素造成影响。对分散度的准确描述将有助于评价实验对象的选择是否合适及个体差异的影响。

  对于分布于二维或三维空间中点的位置需要用2个变量或3个变量描述,因此有必要引入多元统计分析方法,从而获得更加丰富的数据信息,以此提高判断的全面性、准确性和科学性。本研究将多元统计分析中的多元t检验、类间距计算及组内离差平方和计算等方法应用到代谢组学研究中,期望能为判别低维空间中的两组或多组点之间是否存在显著性差异,量化存在显著性差异的组间的差异大小、组内样本分散程度,提供客观、准确的判别方法。

  2多元t检验、类间距和组内离差平方和计算在代谢组学中的应用

  2.1多元t检验、类间距和组内离差平方和计算在代谢组学中的实现过程

  将多元t检验、类间距离计算及组内离差平方和计算等多元统计方法引入代谢组学数据分析的过程: 第一步,对大量样本的谱学数据(MS、NMR等)进行模式识别处理(如PCA),得到二维或三维空间得分图[13]。得分图中每一个数据点对应一个样本,其坐标值反映的是由原始代谢物重新线性组合后的2种或3种“新的代谢物”(主成分)的含量。第二步,以得分图中提取的各个样本的坐标值为对象,进行多元t检验,以此判断组间是否存在显著性差异。第三步,若组间存在显著差异(p

  摘要:在代谢组学现有数据分析方法的基础上,引入了多元统计分析方法中的多元t检验、类间距计算、组内离差平方和计算等统计方法。结合4个代谢组学研究实例,演示了新引入的统计方法的应用。结果表明: 多元t检验可以解答应激组和对照组的代谢组水平之间是否存在“系统差别”,类间距可以提供差别大小,组内离差平方和可以提供离散程度等信息。这些新信息的获取能对模式识别分析所得出的得分图(Scores plot)作进一步的解释,并为后续实验设计提供参考。

  关键词:代谢组学; 模式识别; 多元统计分析; 显著性检验;类间距; 离差平方和; 核磁共振

  1引言

  代谢组学是继基因组学、转录组学、蛋白质组学后,生命科学研究领域出现的又一门新兴组学技术[1],它为系统研究分子病理、基因功能和系统生物学提供了一种强有力的技术手段。

  代谢组学通常以生物样品(体液、组织提取物等)中的代谢物为检测对象,以核磁共振(NMR)[2,3]、高效液相色谱(HPLC)[4]、质谱(MS)[5]和傅立叶变换红外光谱(FTIR)[6,7],以及色谱质谱核磁共振联用技术[8,9]等为检测手段。由于生物样品组成复杂[10],所获得的各种谱图中包含着海量信息,很难直观地从谱中获得全部有效信息。计算机技术的飞速发展使得快速分析、处理大量数据成为可能。代谢组学研究中最常用的数据分析方法是模式识别,包括非监督的方法(如主成分分析(PCA))和监督的方法(如偏最小二乘法(PLS)),及在此基础上发展的优化的方法, 如偏最小二乘法辨别分析(PLSDA)、正交偏最小二乘法辨别分析(OPLSDA)[11,12]等。

  模式识别分析是将样本投射到低维空间中,实现对数据的降维,从而使复杂的数据可视化。在该低维空间中,映射点分布的不同反映了样本组成上的差异。因此,对于分布于低维(二维或者三维)的主成分空间中不同样本的映射点之间是否存在显著性差异的判别尤为重要。当两组样本在空间中映射的分布区域相互靠近,甚至出现部分重叠时,仅凭主观印象作出判断很容易出现错误。在代谢组学研究中,外界刺激能同时引起体液或者生物组织中多种代谢物含量的变化, 这些变化通常是相互关联、互相影响的,单一代谢物的统计变化特异性最差,不能正确、全面地反映整体的变化情况。要提高检出率和特异性,需采用多种实验方法对样本进行检测, 并衡量组间差异和定量判别样品分散程度。各组样本的分散程度所反映的是样本由于自身个体差异、对外来刺激响应的个体差异、实验仪器误差、主观数据处理等因素造成影响。对分散度的准确描述将有助于评价实验对象的选择是否合适及个体差异的影响。

  对于分布于二维或三维空间中点的位置需要用2个变量或3个变量描述,因此有必要引入多元统计分析方法,从而获得更加丰富的数据信息,以此提高判断的全面性、准确性和科学性。本研究将多元统计分析中的多元t检验、类间距计算及组内离差平方和计算等方法应用到代谢组学研究中,期望能为判别低维空间中的两组或多组点之间是否存在显著性差异,量化存在显著性差异的组间的差异大小、组内样本分散程度,提供客观、准确的判别方法。

  2多元t检验、类间距和组内离差平方和计算在代谢组学中的应用

  2.1多元t检验、类间距和组内离差平方和计算在代谢组学中的实现过程

  将多元t检验、类间距离计算及组内离差平方和计算等多元统计方法引入代谢组学数据分析的过程: 第一步,对大量样本的谱学数据(MS、NMR等)进行模式识别处理(如PCA),得到二维或三维空间得分图[13]。得分图中每一个数据点对应一个样本,其坐标值反映的是由原始代谢物重新线性组合后的2种或3种“新的代谢物”(主成分)的含量。第二步,以得分图中提取的各个样本的坐标值为对象,进行多元t检验,以此判断组间是否存在显著性差异。第三步,若组间存在显著差异(p


相关文章

  • 群体药代动力学_群体药效动力学原理及研究方法_芮建中
  • #246# 第18卷 第3期 2005年3月 医学研究生学报JournalofMedicalPostgraduates Vo.l18 No.3 Mar.2005 #综 述# 群体药代动力学/群体药效动力学原理及研究方法 芮建中, 张 震综述 ...查看


  • 头发中乙基葡萄糖醛酸苷分析的研究进展
  • Chinese Journal of Forensic Sciences , 2009, No.3Total No.44 鉴定科学 Research Paper 头发中乙基葡萄糖醛酸苷分析的研究进展 施妍1,2, 向平1,沈保华1,沈敏1 ...查看


  • 生命科学论文
  • 年级:2011 学院:求是学部 专业:测控技术与仪器 姓名:胡继洲 学号:3011204127 精密仪器在生命科学领域的发展概况 精密仪器是生命科学研究不可缺少的工具,而生命科学又以其独特的成果给精密仪器的设计以新的启示. 现代生命科学是以 ...查看


  • _从PISA编码看高考网上阅卷
  • 从PISA编码看高考网上阅卷* 王 [摘 蕾佟威 要]高考网上阅卷已经取得了长足的进步,但同时也存在分省阅卷标准不统一.主观题分数离散程 度低和对标准答案以外的考生作答处理方式单一等一些尚未完全解决的问题.PISA作为世界范围内有重要影响力 ...查看


  • 代谢组学及其分析技术的研究进展_李宁
  • Central South Pharmacy. July 2014, Vol. 12 No.7 中南药学 2014年7月 第12卷7 期 [30] 苟芳芳,张忠民,赵敏,等.依达拉奉与疏血通联合治疗 急性脑梗死临床观察[J].内蒙古中医药, ...查看


  • LAMP法介绍
  • Loop-mediated Isothermal Amplification (LAMP) LAMP 法为已知基因的检测提供"简便.快速.准确.廉价" 的基因检测方法. ★利用该方法「简便」.「廉价」的特性.可将基因检测 ...查看


  • 物元可拓模型的改进及其在膨胀土分类中的应用
  • 第29卷第6期2008年6月 岩土力学 Vbl.29No.6 RockandSoilMechanicsJun.2008 文章稿号l 1000--7598--(2008)06-1681一04 物元可拓模型的改进及其在膨胀土分类中的应用 张慧颖 ...查看


  • 基于模糊神经网络的信息系统安全风险评估研究
  • 第35卷 第1期2011年2月 武汉理工大学学报(交通科学与工程版) Journal o f Wuhan University of Technolo gy T ranspo rtatio n Science &Eng ineeri ...查看


  • 数学学业成就评价试题编制研究
  • 作者:梅松竹朱文芳冷平 课程·教材·教法 2013年06期 随着我国基础教育的普及与发展,教育的关注重点逐渐从数量扩张转向质量提升.学业成就评价是测评学生的知识素养与学科能力的重要举措,我国对于数学学业成就评价一般采用会考或大规模教育质量监 ...查看


热门内容