科技信息
专题论述
从结构基因组学到蛋白质组学研究现状
哈尔滨师范大学生命科学与技术学院
张靓
[摘要]人类基因组计划(HumanGenomicsProject,HGP)主要的成果是:遗传图、物理图、转录图、序列图。该计划完成以后的基因
[1]
而基因功能的研究就不能不涉及到蛋白质(proteome),各项技术的发展也推动了蛋白质的研究,因此,研究进入了后基因组时代,
蛋白质组学(Proteomics)的产生具备了必然性和可能性。[关键词]基因组学后基因组学人类基因组计划蛋白质组学
基因组(Genome)是基因(gene)和染色体(chromosome)的组合,用
于描述生物的全部基因和染色体组成。基因组学(Genomics)则是于1986年美国科学家ThomasRoderick所提出的,指对所有基因进行基因组作图、核苷酸序列分析、基因定位和基因功能分析的一门科学。基因组研究主要包括两方面的内容:以全基因组测序为目标的结构基因组学(StructuralGenomics)和以基因功能鉴定为目标的功能基因组学(Func-
[5]
tionalGenomics),后者又往往被称为后基因组学(Postgenomics)。随着后基因组学的不断推进,从DNA层面上的研究已经不能满足人们的需要,继而出现了以蛋白质为主要研究对象的蛋白质组学。
1.结构基因组学
“基因组学”,它以基因组作图,结构基因组学即通常人们所提到的
核苷酸序列测定,确定基因组成及基因定位为主要任务。1990年10月,国际人类基因组计划(HGP)在美国正式启动,2003年4月14日,美国
·柯林斯博士在华盛顿联邦国家人类基因组研究项目负责人弗朗西斯
宣布:美、英、日、法、德和中国科学家经过13年努力共同绘制完成了人类基因组序列图,至此人类基因组计划所有目标全部实现[1]。HGP主要完成了四张图谱[4]:
1.1遗传图
“路标”,以遗传距离为“图距”的基具有遗传多态性的遗传标记为
因组图。遗传分析的灵魂是:①以表现型即遗传性状可以肯定在基因组中有这么一个基因;②以“基因在基因组中必有其位置”将其定位;③以
近则重组率低或不重组)进行连两个位点之间的关系(远则重组率高、
锁分析,得到两个位点之间的遗传距离。把多态性疾病位点与6000多个多态性遗传标记一一分析,如果在家系中发现与一标记毫无连锁(重组率=50%)的证据,就可以将其从这一标记附近排除;如果发现与某标记有一定程度的连锁(重组率小于50%而大于0),就知道疾病位点已在该标记附近;如果与某标记没有重组,而个体数又达到统计学要求,就可以知道该位点已非常邻近疾病位点。这一方法已广泛应用于单基因遗传病位点的确定。
1.2物理图
一段已知核苷酸序列的DNA片段(STS,sequencetaggedsite,序列标记位置)为路标,以Mb或kb为图距的基因组图。真核生物的染色体
最合理、最经济、最有效的组装单位。染色体上天然是遗传物质最自然、
的或以人工显示的区、带、亚带、亚亚带是基因组中最客观、最可靠、最方便的物理标记,不管是1个基因、1个DNA片段、1段核苷酸序列,都应该定位于某个染色体的某个区域、某个条带或某个亚带、亚亚带上。
1.3转录图
所有生物的性状,包括疾病都是由结构或功能蛋白质决定的。而已知的所有蛋白质都是由RNA聚合酶Ⅱ指导的带有多A(polyadenylates)“尾巴”的mRNA依照“遗传密码”编码的。把mRNA或根据mRNA人工合成的cDNA分离定位,就抓住了基因的主要特点与主要部分即可转录部分。基因的转录图,亦称cDNA图或表达序列(EST,表达序列标签)图。其有着多方面的现实意义:①为估计人类基因的数目提供较为可靠的依据;②它所提供的不同组织、不同发育阶段的基因表达数目、种类、及结构、功能的信息,是基因克隆必不可少的;③提供结构基因的标记,可作为筛选基因的探针;④是基因组序列分析效益最高、收获最快的方案。
1.4序列图
总长度约为一米、由30亿对核苷酸组成的序列图是分子水平最高、层次最详尽的物理图。由于所有人类基因个体的基因位点都是相同的,不同种族、不同个体的基因差异及正常与疾病基因的差异,只是同一位点上的等位基因的差异。因此,人类个体的代表性基因与序列在实际意义上可用于任何种族、任何个体的基因分析、基因诊断。
2.功能基因组学
功能基因组学即后基因组学,它是利用结构基因组学提供的信息
和产物,通过在基因组或系统水平上全面分析基因的功能[2],使得生物学研究从对单一基因或蛋白质的研究转向对多个基因或蛋白质同时进行系统的研究[6]。其包括基因功能发现,基因表达分析及突变检测。基因的表达一般是不容易被发现的,开始人们研究基因表达概况是比较不同组织和不同发育阶段,正常状态和疾病状态,以及体外培养的细胞中基因表达模式的差异,但由于性状的改变往往是由多基因共同作用的效果,这种比较易出现偏差。随着基因敲除技术及抑制基因表达的技术日趋完善,可通过技术手段抑制单一基因的表达来进行基因功能的研究。对于功能性基因的筛选技术,除已建立的酵母双杂交技术外,传统的RT-PCR、RNase保护实验、RNA印迹杂交等都为行之有效的好方法,但是,某些基因表达分析需要借助技术如微点阵(Microarray)和基因表达系列分析(SerialAnalysisofGeneExpression,SAGE)等一些相对较新的方法。另外需采用生物学信息、计算机生物学技术和生物学实验手段以及二
除收集现有的各种数据库外,还要不断扩充这些数据库,者结合的方法。
并研制、建立更多样化的数据库和信息处理软件[3]。生物功能的主要体现者是蛋白质,蛋白质的一些生物功能不能在基因水平上知道,所以产生了一门在整体水平上研究细胞内蛋白质的组成及其活动规律的学科———蛋白质组学[7]。
3.蛋白质组学
蛋白质组学是与基因组学相对应的,是指根据蛋白质种类、数量、局部存在的时间、空间上的变化来研究表达于细胞、组织及个体中的全部蛋白质,并从其结构和功能的角度综合分析生命活动的一门科学。
3.1表达蛋白质组学
根据蛋白质组学指纹(proteomicsignature)来明确由于状态变化而发生重现的变动中的蛋白质群的特征技术。某些时候,解析仅限于膜蛋白、转录因子等特定蛋白质群,此时被称为focusedproteomics。另外,有时候仅需分析磷酸化及糖基化等特定的翻译后被修饰的蛋白质,此时被称为post-translationalmodificationproteomics等。表达蛋白质组学技术,不仅可以应用于疾病的诊断和药物疗效的监测,还可以用于制药和农畜产品的质量管理等。
3.2功能蛋白质组学
单个基因的蛋白质体外表达方法:DNA重组体技术的应用使体外合成蛋白质成为可能。克隆化基因有两种表达系统:原核表达系统和真核表达系统。蛋白质组分析主要涉及两个步骤:蛋白质的分离和蛋白质的鉴定。用于蛋白质分离的技术主要有双向凝胶电泳(DimensionalGelElectrophoresis,DGE)[8]。用于蛋白质鉴定的技术有Edman降解法测N端
质谱技术(MassSpectrometry,MS)和氨基酸组成分析等[4]。序列、
参考文献[1]王晓慧.基因组研究和后基因组研究.安徽卫生职业技术学院学报,2006,5(3):67-68.
[2]潘华珍.生物信息传递.21世纪初科学发展趋势[M].科学出版社出版,2000.
[3]林雁.后基因组学.生物学教学,2001,26(7):5-6.[4]朱沙,张春辉,李鲜菊.从基因组学到功能蛋白质组学的研究.2007.2,24(1):13-15.
[5]WoychikRP,KlebigML,JusticeMJ,etal.Functionalgenomicsinthepost-genomeera[J].MutRes,1998,400:3~14.
[6]IlagLL.Functionalproteomicscreensintherapeuticproteindrugdiscovery[J].CurrOpinMolTher,2005,7(6):538~542.
[7]AggarwalK,LeeKH.Functionalgenomicsandproteomicsasafoundationforsystemsbiology[J].BriefFunctGenomicProteomic,2003,2(3):175~184.
[8]MannM.Quantitativeproteomics[J].NatureBiotechnol,1999,17(10):954~955.
科技信息
专题论述
从结构基因组学到蛋白质组学研究现状
哈尔滨师范大学生命科学与技术学院
张靓
[摘要]人类基因组计划(HumanGenomicsProject,HGP)主要的成果是:遗传图、物理图、转录图、序列图。该计划完成以后的基因
[1]
而基因功能的研究就不能不涉及到蛋白质(proteome),各项技术的发展也推动了蛋白质的研究,因此,研究进入了后基因组时代,
蛋白质组学(Proteomics)的产生具备了必然性和可能性。[关键词]基因组学后基因组学人类基因组计划蛋白质组学
基因组(Genome)是基因(gene)和染色体(chromosome)的组合,用
于描述生物的全部基因和染色体组成。基因组学(Genomics)则是于1986年美国科学家ThomasRoderick所提出的,指对所有基因进行基因组作图、核苷酸序列分析、基因定位和基因功能分析的一门科学。基因组研究主要包括两方面的内容:以全基因组测序为目标的结构基因组学(StructuralGenomics)和以基因功能鉴定为目标的功能基因组学(Func-
[5]
tionalGenomics),后者又往往被称为后基因组学(Postgenomics)。随着后基因组学的不断推进,从DNA层面上的研究已经不能满足人们的需要,继而出现了以蛋白质为主要研究对象的蛋白质组学。
1.结构基因组学
“基因组学”,它以基因组作图,结构基因组学即通常人们所提到的
核苷酸序列测定,确定基因组成及基因定位为主要任务。1990年10月,国际人类基因组计划(HGP)在美国正式启动,2003年4月14日,美国
·柯林斯博士在华盛顿联邦国家人类基因组研究项目负责人弗朗西斯
宣布:美、英、日、法、德和中国科学家经过13年努力共同绘制完成了人类基因组序列图,至此人类基因组计划所有目标全部实现[1]。HGP主要完成了四张图谱[4]:
1.1遗传图
“路标”,以遗传距离为“图距”的基具有遗传多态性的遗传标记为
因组图。遗传分析的灵魂是:①以表现型即遗传性状可以肯定在基因组中有这么一个基因;②以“基因在基因组中必有其位置”将其定位;③以
近则重组率低或不重组)进行连两个位点之间的关系(远则重组率高、
锁分析,得到两个位点之间的遗传距离。把多态性疾病位点与6000多个多态性遗传标记一一分析,如果在家系中发现与一标记毫无连锁(重组率=50%)的证据,就可以将其从这一标记附近排除;如果发现与某标记有一定程度的连锁(重组率小于50%而大于0),就知道疾病位点已在该标记附近;如果与某标记没有重组,而个体数又达到统计学要求,就可以知道该位点已非常邻近疾病位点。这一方法已广泛应用于单基因遗传病位点的确定。
1.2物理图
一段已知核苷酸序列的DNA片段(STS,sequencetaggedsite,序列标记位置)为路标,以Mb或kb为图距的基因组图。真核生物的染色体
最合理、最经济、最有效的组装单位。染色体上天然是遗传物质最自然、
的或以人工显示的区、带、亚带、亚亚带是基因组中最客观、最可靠、最方便的物理标记,不管是1个基因、1个DNA片段、1段核苷酸序列,都应该定位于某个染色体的某个区域、某个条带或某个亚带、亚亚带上。
1.3转录图
所有生物的性状,包括疾病都是由结构或功能蛋白质决定的。而已知的所有蛋白质都是由RNA聚合酶Ⅱ指导的带有多A(polyadenylates)“尾巴”的mRNA依照“遗传密码”编码的。把mRNA或根据mRNA人工合成的cDNA分离定位,就抓住了基因的主要特点与主要部分即可转录部分。基因的转录图,亦称cDNA图或表达序列(EST,表达序列标签)图。其有着多方面的现实意义:①为估计人类基因的数目提供较为可靠的依据;②它所提供的不同组织、不同发育阶段的基因表达数目、种类、及结构、功能的信息,是基因克隆必不可少的;③提供结构基因的标记,可作为筛选基因的探针;④是基因组序列分析效益最高、收获最快的方案。
1.4序列图
总长度约为一米、由30亿对核苷酸组成的序列图是分子水平最高、层次最详尽的物理图。由于所有人类基因个体的基因位点都是相同的,不同种族、不同个体的基因差异及正常与疾病基因的差异,只是同一位点上的等位基因的差异。因此,人类个体的代表性基因与序列在实际意义上可用于任何种族、任何个体的基因分析、基因诊断。
2.功能基因组学
功能基因组学即后基因组学,它是利用结构基因组学提供的信息
和产物,通过在基因组或系统水平上全面分析基因的功能[2],使得生物学研究从对单一基因或蛋白质的研究转向对多个基因或蛋白质同时进行系统的研究[6]。其包括基因功能发现,基因表达分析及突变检测。基因的表达一般是不容易被发现的,开始人们研究基因表达概况是比较不同组织和不同发育阶段,正常状态和疾病状态,以及体外培养的细胞中基因表达模式的差异,但由于性状的改变往往是由多基因共同作用的效果,这种比较易出现偏差。随着基因敲除技术及抑制基因表达的技术日趋完善,可通过技术手段抑制单一基因的表达来进行基因功能的研究。对于功能性基因的筛选技术,除已建立的酵母双杂交技术外,传统的RT-PCR、RNase保护实验、RNA印迹杂交等都为行之有效的好方法,但是,某些基因表达分析需要借助技术如微点阵(Microarray)和基因表达系列分析(SerialAnalysisofGeneExpression,SAGE)等一些相对较新的方法。另外需采用生物学信息、计算机生物学技术和生物学实验手段以及二
除收集现有的各种数据库外,还要不断扩充这些数据库,者结合的方法。
并研制、建立更多样化的数据库和信息处理软件[3]。生物功能的主要体现者是蛋白质,蛋白质的一些生物功能不能在基因水平上知道,所以产生了一门在整体水平上研究细胞内蛋白质的组成及其活动规律的学科———蛋白质组学[7]。
3.蛋白质组学
蛋白质组学是与基因组学相对应的,是指根据蛋白质种类、数量、局部存在的时间、空间上的变化来研究表达于细胞、组织及个体中的全部蛋白质,并从其结构和功能的角度综合分析生命活动的一门科学。
3.1表达蛋白质组学
根据蛋白质组学指纹(proteomicsignature)来明确由于状态变化而发生重现的变动中的蛋白质群的特征技术。某些时候,解析仅限于膜蛋白、转录因子等特定蛋白质群,此时被称为focusedproteomics。另外,有时候仅需分析磷酸化及糖基化等特定的翻译后被修饰的蛋白质,此时被称为post-translationalmodificationproteomics等。表达蛋白质组学技术,不仅可以应用于疾病的诊断和药物疗效的监测,还可以用于制药和农畜产品的质量管理等。
3.2功能蛋白质组学
单个基因的蛋白质体外表达方法:DNA重组体技术的应用使体外合成蛋白质成为可能。克隆化基因有两种表达系统:原核表达系统和真核表达系统。蛋白质组分析主要涉及两个步骤:蛋白质的分离和蛋白质的鉴定。用于蛋白质分离的技术主要有双向凝胶电泳(DimensionalGelElectrophoresis,DGE)[8]。用于蛋白质鉴定的技术有Edman降解法测N端
质谱技术(MassSpectrometry,MS)和氨基酸组成分析等[4]。序列、
参考文献[1]王晓慧.基因组研究和后基因组研究.安徽卫生职业技术学院学报,2006,5(3):67-68.
[2]潘华珍.生物信息传递.21世纪初科学发展趋势[M].科学出版社出版,2000.
[3]林雁.后基因组学.生物学教学,2001,26(7):5-6.[4]朱沙,张春辉,李鲜菊.从基因组学到功能蛋白质组学的研究.2007.2,24(1):13-15.
[5]WoychikRP,KlebigML,JusticeMJ,etal.Functionalgenomicsinthepost-genomeera[J].MutRes,1998,400:3~14.
[6]IlagLL.Functionalproteomicscreensintherapeuticproteindrugdiscovery[J].CurrOpinMolTher,2005,7(6):538~542.
[7]AggarwalK,LeeKH.Functionalgenomicsandproteomicsasafoundationforsystemsbiology[J].BriefFunctGenomicProteomic,2003,2(3):175~184.
[8]MannM.Quantitativeproteomics[J].NatureBiotechnol,1999,17(10):954~955.