比较基因组学
摘要:比较基因组学是在基因组图谱和测序的基础上, 利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。该学科在后基因组时代是一门重要的工具学科。通过不同物种间的基因组序列比较, 可以发现生物体中蕴涵的大量生物学信息, 其发展及所取得的成果与序列的积累相同步, 尤其是人类全基因组序列的分析与比较使比较基因组学成为整个生物学领域最新、最重要、进展最快和影响最大的学科之一。
关键词:比较基因组学;同源性;单核苷酸多态性;拷贝数多态性
世界范围内的多物种基因组计划和各类测序工作已经形成了海量的序列数据资源,它们正在使基因组研究发生革命性变化,信息和新技术的迅速发展也表明:分子遗传革新将是今后几十年的发展方向。尤其是从整体上而不是仅仅从某个或少数几个基因入手来研究生物体基因组的机能,己经在短短几年迅速发展壮大起来,比较基因组学已成为解读海量基因组序列数据及其相关生物学含义的强有力工具。通过物种之间的一比较能够了解基因组的进化,从而加速对人类基因结构和功能的了解。为阐明基因表达机制提供重要线索。达到从根本上了解认识生命的起源,物种及个体差异的原因,疾病产生的机制以及长寿、衰老等困扰着人类的最基本的生命现象,最终解析生命奥秘。
比较基因组学是通过对不同物种的基因组数据进行比较分析,揭示彼此的相似性和差异性,以了解不同物种进化上的差异,综合这些信息能进一步帮助我们了解物种形成的机制、基因或基因组上非编码区的功能。
1、种间比较基因组学
比较基因组学的基础是相关生物的相似性,序列间有显著的相似性即意味着序列之间有同源关系。同源是指被比较的物种是由共同的祖先经过自然选择进化而来。同源又可分为两种:直系同源和旁系同源直系同源的序列因物种形成而被区分开,若一个基因原先存在于某个物种,而该物种分化为了两个物种,那么新物种中的基因是直系同源的; 旁系同源的序列因基因繁殖而被区分开,若生物体中的某个基因被复制了,那么两个副本序列就是旁系同源的。直系同源体通常有相同或相似的功能,但旁系同源体则不一定:由于缺乏原始的自然选择的力量,一繁殖出的基因副本可以自由的变异并获得新的功能。所有现代物种都是由相关的物种演化而来,现代的每一个基因都是由其它基因演化而来的。每一个基因都可以在其相关物种中找到直系同源基因,大部分的基因都可以在同一物种中找到旁系同源基因。如果两个物种非常相近,它们的基因组相关性就越高,基因组会表现出同线性,即基因序列的部分或全部保守。这样就可以利用模式基因组之间编码顺序上和结构上的同源性,通过已知基因组作图信息定位另外基因组中的基因,从而揭示基因潜在的功能、阐明物种进化关系及基因组的内在结构。
此外比较基因组分析还扩展到对序列相似性的分析、基因位置的比较、基因编码区长度或外显子数的变异、基因组上非编码区的比例、进化关系较远的物种间高度保守区域的比较
分析等等(例如从最简单的细菌到非常复杂的人类基因组之间的比较)。进而得到基因分析预测与定位、生物系统发育进化关系等方面的信息。大规模脊椎动物比较基因组学分析时代起始于对人类和老鼠的草图基因组分析[1,2]。通过基因组的比较分析能获得很多基因组进化过程和基因组功能序列的信息。
发现功能蛋白编码区是比较基因组学应用最早且较成熟的一个领域[3],例如通过人和小鼠X 染色体保守区域的比较分析,定位了43种新的编码蛋白质的基因结构[4]。后来发现,基因组间保守的区域并不全是编码蛋白的基因,很多保守区域并不编码任何蛋白[5,6,7]。近几年来基因组的非编码区域越来越引起研究者的重视[8]。比较基因组学以进化论作为理论基石,同时其研究结果又前所未有地丰富和发展了进化理论。当在两种以上的基因组间进行序列比较时,实质上就得到了序列在系统发生树中的进化关系。基因组信息的增多使得在基因组水平上研究分子进化、功能成为可能。通过对多种生物基因组数据及其垂直进化、水平演化过程进行研究,就可以对生命至关重要的基因的结构及其调控作用有所了解。近年来通过多种生物的比较基因组研究,不仅加深了人们对基因功能及其演变过程的了解,更加速了多种疾病相关基因豹发现,为复杂疾病的成因及治疗模式提供依据,大大加快了人类基因治疗的进程。
2、种内比较基因组学
同种群体内基因组存在大量的变异和多态性,正是这种基因组序列的差异构成了不同个体与群体对疾病的易感性和对药物与环境因子不同反映的遗传学基础。单核苷酸多态性是指在基因组水平上由于单个核苷酸位置上存在转换或颠换等变异所引起的DNA 序列多态性。根据SNP 在基因中的位置,可分为基因编码区SNP 基因周边SNP 以及基因等三类,直接测序法是最容易实施的SNP 检测方法。通过对不同个体同一基因或基因片段进行测序和序列比较,以确定所研究的碱基是否变异,其检出率可达100%。采用直接测序法,还可以得到SNP 的类型及准确位置等SNP 分型所需要的重要参数。
在全基因组测序和基因芯片技术发明前,受限于基因组内高通量DNA 拷贝数检测手段,人们对全基因组范围内的拷贝数变异也称拷贝数多态性的数量和分布知之甚少。2004年,全球内数个“人类基因组计划”研究基地意外的发现,表型正常的人群中,不同个体间在某些基因的拷贝数上存在差异,一些人丢失了大量的基因拷贝,而另一些人则拥有额外、延长的基因拷贝,研究人员称这种现象为“基因拷贝多态性”。正是由于CNP 才造成了不同个体间在疾病、食欲和药效等方面的差异。研究表明,平均每2个个体间存在11个CNP 的差异,CNP 的平均长度为465kb ,其中半数以上的CNP 在多个个体中重复出现,并经常位于重组染色体附近。目前随着测序技术的进步,已有研究单位利用比较基因组学的方法检测CNP 。
3、总结
人类科学的研究史已经表明, 科学数据的大量积累将导致重大科学规律的发现, 而日益庞大及复杂的基因组数据已经为比较基因组学的发展提供了契机。同时, 目前的比较基因组学研究还需要与其他学科的不断融合。生命科学长久以来难以解决的一些问题, 在导入其他
学科的技术后, 就可以用更有效的方法去解决, 即使是被奉为圭臬的标准, 也不代表就没有进步空间。推进学科交叉、多领域合作, 在不同领域、不同背景的研究人员共同努力下, 一定能事半功倍地了解基因组结构和功能, 揭示生命本质规律。
参考文献
[1]Consortium , I.H.G.S. Initial sequencing and analysis of the human genome[J].
Nature[J].2001,409(6822):860-921.
[2]Consortium , I.M.G.S. Initial sequencing and comparative analysis of the mouse
Genome [J].Nature, 2002, 420(6915):520-562.
[3]Nobrega MA, Pennacchio LA. Comparative genomic analysis as a tool for
Biological discovery [J].Physiological Soc,2004,554(ptl):31-39.
[4]Harsha HC, Suresh S, Amanchy R, et al. A manually curated functional
Annotation of the human X chromosome. Nat Genet[J],2005,37(4):331-332.
[5]Bejerano G. Pheasant M, Makunin I, et al. Ultraconserved elements in the human
genome.Scienee,2004,304(5675):1321-1325.
[6]Pollard KS, Salama SR, Lambert N, et al. An RNA gene expressed during cortical
Development evolved rapidly in humans[J].Nature,2006,443(7108):167-172.
[7]Samuel Levy, Granger Sutton, Pauline C. Ng. The Diploid Genome Sequence of
An Individual Human[J]. PloS Biol,2007,5(10):e254
[8]JE Baggs, KR Hayes, JB Hogenesch. Comparative genomes as a tool in the
Understanding of eukaryotic transcriptional regulation[J]. Curr Opin Genet Dev,
2005,15(6):634-639.
比较基因组学
摘要:比较基因组学是在基因组图谱和测序的基础上, 利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。该学科在后基因组时代是一门重要的工具学科。通过不同物种间的基因组序列比较, 可以发现生物体中蕴涵的大量生物学信息, 其发展及所取得的成果与序列的积累相同步, 尤其是人类全基因组序列的分析与比较使比较基因组学成为整个生物学领域最新、最重要、进展最快和影响最大的学科之一。
关键词:比较基因组学;同源性;单核苷酸多态性;拷贝数多态性
世界范围内的多物种基因组计划和各类测序工作已经形成了海量的序列数据资源,它们正在使基因组研究发生革命性变化,信息和新技术的迅速发展也表明:分子遗传革新将是今后几十年的发展方向。尤其是从整体上而不是仅仅从某个或少数几个基因入手来研究生物体基因组的机能,己经在短短几年迅速发展壮大起来,比较基因组学已成为解读海量基因组序列数据及其相关生物学含义的强有力工具。通过物种之间的一比较能够了解基因组的进化,从而加速对人类基因结构和功能的了解。为阐明基因表达机制提供重要线索。达到从根本上了解认识生命的起源,物种及个体差异的原因,疾病产生的机制以及长寿、衰老等困扰着人类的最基本的生命现象,最终解析生命奥秘。
比较基因组学是通过对不同物种的基因组数据进行比较分析,揭示彼此的相似性和差异性,以了解不同物种进化上的差异,综合这些信息能进一步帮助我们了解物种形成的机制、基因或基因组上非编码区的功能。
1、种间比较基因组学
比较基因组学的基础是相关生物的相似性,序列间有显著的相似性即意味着序列之间有同源关系。同源是指被比较的物种是由共同的祖先经过自然选择进化而来。同源又可分为两种:直系同源和旁系同源直系同源的序列因物种形成而被区分开,若一个基因原先存在于某个物种,而该物种分化为了两个物种,那么新物种中的基因是直系同源的; 旁系同源的序列因基因繁殖而被区分开,若生物体中的某个基因被复制了,那么两个副本序列就是旁系同源的。直系同源体通常有相同或相似的功能,但旁系同源体则不一定:由于缺乏原始的自然选择的力量,一繁殖出的基因副本可以自由的变异并获得新的功能。所有现代物种都是由相关的物种演化而来,现代的每一个基因都是由其它基因演化而来的。每一个基因都可以在其相关物种中找到直系同源基因,大部分的基因都可以在同一物种中找到旁系同源基因。如果两个物种非常相近,它们的基因组相关性就越高,基因组会表现出同线性,即基因序列的部分或全部保守。这样就可以利用模式基因组之间编码顺序上和结构上的同源性,通过已知基因组作图信息定位另外基因组中的基因,从而揭示基因潜在的功能、阐明物种进化关系及基因组的内在结构。
此外比较基因组分析还扩展到对序列相似性的分析、基因位置的比较、基因编码区长度或外显子数的变异、基因组上非编码区的比例、进化关系较远的物种间高度保守区域的比较
分析等等(例如从最简单的细菌到非常复杂的人类基因组之间的比较)。进而得到基因分析预测与定位、生物系统发育进化关系等方面的信息。大规模脊椎动物比较基因组学分析时代起始于对人类和老鼠的草图基因组分析[1,2]。通过基因组的比较分析能获得很多基因组进化过程和基因组功能序列的信息。
发现功能蛋白编码区是比较基因组学应用最早且较成熟的一个领域[3],例如通过人和小鼠X 染色体保守区域的比较分析,定位了43种新的编码蛋白质的基因结构[4]。后来发现,基因组间保守的区域并不全是编码蛋白的基因,很多保守区域并不编码任何蛋白[5,6,7]。近几年来基因组的非编码区域越来越引起研究者的重视[8]。比较基因组学以进化论作为理论基石,同时其研究结果又前所未有地丰富和发展了进化理论。当在两种以上的基因组间进行序列比较时,实质上就得到了序列在系统发生树中的进化关系。基因组信息的增多使得在基因组水平上研究分子进化、功能成为可能。通过对多种生物基因组数据及其垂直进化、水平演化过程进行研究,就可以对生命至关重要的基因的结构及其调控作用有所了解。近年来通过多种生物的比较基因组研究,不仅加深了人们对基因功能及其演变过程的了解,更加速了多种疾病相关基因豹发现,为复杂疾病的成因及治疗模式提供依据,大大加快了人类基因治疗的进程。
2、种内比较基因组学
同种群体内基因组存在大量的变异和多态性,正是这种基因组序列的差异构成了不同个体与群体对疾病的易感性和对药物与环境因子不同反映的遗传学基础。单核苷酸多态性是指在基因组水平上由于单个核苷酸位置上存在转换或颠换等变异所引起的DNA 序列多态性。根据SNP 在基因中的位置,可分为基因编码区SNP 基因周边SNP 以及基因等三类,直接测序法是最容易实施的SNP 检测方法。通过对不同个体同一基因或基因片段进行测序和序列比较,以确定所研究的碱基是否变异,其检出率可达100%。采用直接测序法,还可以得到SNP 的类型及准确位置等SNP 分型所需要的重要参数。
在全基因组测序和基因芯片技术发明前,受限于基因组内高通量DNA 拷贝数检测手段,人们对全基因组范围内的拷贝数变异也称拷贝数多态性的数量和分布知之甚少。2004年,全球内数个“人类基因组计划”研究基地意外的发现,表型正常的人群中,不同个体间在某些基因的拷贝数上存在差异,一些人丢失了大量的基因拷贝,而另一些人则拥有额外、延长的基因拷贝,研究人员称这种现象为“基因拷贝多态性”。正是由于CNP 才造成了不同个体间在疾病、食欲和药效等方面的差异。研究表明,平均每2个个体间存在11个CNP 的差异,CNP 的平均长度为465kb ,其中半数以上的CNP 在多个个体中重复出现,并经常位于重组染色体附近。目前随着测序技术的进步,已有研究单位利用比较基因组学的方法检测CNP 。
3、总结
人类科学的研究史已经表明, 科学数据的大量积累将导致重大科学规律的发现, 而日益庞大及复杂的基因组数据已经为比较基因组学的发展提供了契机。同时, 目前的比较基因组学研究还需要与其他学科的不断融合。生命科学长久以来难以解决的一些问题, 在导入其他
学科的技术后, 就可以用更有效的方法去解决, 即使是被奉为圭臬的标准, 也不代表就没有进步空间。推进学科交叉、多领域合作, 在不同领域、不同背景的研究人员共同努力下, 一定能事半功倍地了解基因组结构和功能, 揭示生命本质规律。
参考文献
[1]Consortium , I.H.G.S. Initial sequencing and analysis of the human genome[J].
Nature[J].2001,409(6822):860-921.
[2]Consortium , I.M.G.S. Initial sequencing and comparative analysis of the mouse
Genome [J].Nature, 2002, 420(6915):520-562.
[3]Nobrega MA, Pennacchio LA. Comparative genomic analysis as a tool for
Biological discovery [J].Physiological Soc,2004,554(ptl):31-39.
[4]Harsha HC, Suresh S, Amanchy R, et al. A manually curated functional
Annotation of the human X chromosome. Nat Genet[J],2005,37(4):331-332.
[5]Bejerano G. Pheasant M, Makunin I, et al. Ultraconserved elements in the human
genome.Scienee,2004,304(5675):1321-1325.
[6]Pollard KS, Salama SR, Lambert N, et al. An RNA gene expressed during cortical
Development evolved rapidly in humans[J].Nature,2006,443(7108):167-172.
[7]Samuel Levy, Granger Sutton, Pauline C. Ng. The Diploid Genome Sequence of
An Individual Human[J]. PloS Biol,2007,5(10):e254
[8]JE Baggs, KR Hayes, JB Hogenesch. Comparative genomes as a tool in the
Understanding of eukaryotic transcriptional regulation[J]. Curr Opin Genet Dev,
2005,15(6):634-639.