基于多数据域描述的转录因子结合位点识别

第23卷第2期

2006年2月 计算机应用与软件 Computer Applications and Software Vol.23, No.2 Feb. 2006

基于多数据域描述的转录因子结合位点识别

陈鸣 薛慧君 熊赟 朱扬勇

21211(复旦大学计算机科学技术学院 上海 200433) (内蒙古电子信息职业技术学院计算机科学系 呼和浩特 010011)

摘 要 转录因子结合位点的识别对于理解转录调控机制起着重要作用,也是后基因组时代面临的巨大挑战之一。本文提出了一个基于多任务学习的转录因子位点的识别方法。首先建立了一个基于多任务学习理论的多数据域描述模型,然后结合核方法设计转录因子结合位点多分类识别算法。最后对取自于TRANSFAC数据库的真实数据进行交叉验证测试。实验结果表明该方法能充分地利用稀缺的训练样本,有效地捕获不同类别间的联系,从而获得了较高的预测准确率。

关键词 多任务学习 转录因子结合位点 多数据域描述 核方法

Transcription Factor Binding Sites Recognition by Multiple Data Domain Description

Chen Ming1 Xue Huijun2 Xiong Yun1 Zhu Yangyong1

1

2(School of Computer Science, Fudan University, Shanghai 200433,China) (Department of Computer Science, Inner Mongolia Electronic Information Vocational Technical College, Hohhot 010011,China)

Abstract This paper presents a multi-task learning approach to the problem of Transcription Factor Binding Sites (TFBS) recognition. Firstly, a new multiple data domain description model was established; it was theoretically founded on the new kernel-based multi-task learning formulation of learning multiple tasks simultaneously in order to capture shared structures among tasks. Then, the model was naturally cast to the case of TFBS recognition with kernel methods. Finally, real data set was retrieved from TRANSFAC database to validate the effectiveness of the proposed method. The experimental result indicated that our multi-task learning approach can significantly improve the prediction accuracy by virtue of using training examples from multiple classes as a whole and meanwhile capturing their inter-class relatedness.

Keywords Multi-task Learning Transcription Factor Binding Sites Multiple Data Domain Description Kernel Methods

0 引 言

在分子生物学领域,理解转录调控机制是后基因组时代重

大挑战之一。达到这一目标的重要步骤是转录因子结合位点

(Transcription Factor Binding Sites: TFBS)的识别。转录因子

结合位点是基因上游启动子区域长度为5~15bp的短序列片段,

被转录因子结合以调控下游基因。通过生物学试验检测TFBS

的方法由于开销大、耗时长等缺点,不适合处理海量数据。因

此,越来越多的计算识别方法被提出用于初选待测位点。通常

一个转录因子结合位点可以被一个或多个转录因子结合,而相

关研究表明这种结合具有较高的特异性。因此,在计算分子生

物学领域,TFBS的识别问题可视为一个多类别模式分类问题,

即给定一个未知样本,判定它可能被那一类或哪几类转录因子

结合。

目前,基于核方法和正则化理论的机器学习分类算法是最

常用的方法之一,也是统计学习理论 (Statistical learning theory:

[1,2]SLT) 的核心内容。SVM作为经典的分类算法,基于VC维

理论和结构风险最小化原理,克服了传统机器学习分类算法维

数灾难、陷入局部最优解、过拟合等缺陷,对未知样本具有良

好的泛化性能,因此被广泛应用于模式识别、文本分类、生物信息学、信息安全等诸多领域。 传统SVM主要用于解决二分类问题。近年来提出的多分类SVM作为原始SVM的扩展,是将多分类问题分解为多个两分类问题,忽略了类别间的联系。其中,“一对多”策略采用了一个正负类不平衡的训练集,建立的每个二分类器负样本数远大于正样本。另外,现有的多分类SVM不适用于只包含正样本集的情况,而TFBS负样本集无法构造。因此,利用现有的多分类SVM处理TFBS识别问题并不恰当,需要设计一个能直接用于多类样本集的多分类器。 基于正则化理论建立的分类器的结构风险通常由两部分控制:经验风险(训练误差)和置信界。以二分类问题为例,一个规范超平面构成的指示函数集 的VC维h满足 h(x)sgn[(wx)b] (1) (2) hmin([R2A2],n)1, 其中,sgn[]为符号函数,n为向量空间的维数,R为覆盖样本向量的超球半径,||w||A。通过式(2)不难发现,一定

2 计算机应用与软件 2006年 程度上减小R2,能使VC维的上界h减小,从而降低学习机的

复杂性,以提高预测函数的泛化能力。这正是数据域描述模型

的基本思想。数据域描述是对数据集所在的类别进行描述,拒

绝可能来自其他类的数据[9,10]。本文在最新的多任务学习理论基

础上将数据域描述问题拓展到多类的情况,并用于解决TFBS

识别问题,从整体上对来自所有类别的样本同时学习,同时捕

获类别之间的联系。

SVM采用的hinge损失函数对孤立点和噪声都是较敏感

的,即对离群点不具有鲁棒性。本文根据训练样本的置信度不

同,在惩罚项中引入模糊成员函数以区别对待,对置信度大的

样本给予充分重视,相反(很可能是噪声点)则限制其作用。

基于核方法的机器学习算法的核心问题是核函数的选择,

因其很大程度上影响分类器的性能。先前基于核方法的生物实

体识别算法通常采用0-1编码的多项式核,显然不适合长度不

规则的生物序列。本文采用基于编辑距离的字符串核来度量

TFBS之间的相似性,以更好地比较序列间的相似性。

1 相关工作

在计算分子生物学领域,常见的TFBS识别方法是通过从

海量基因序列中寻找超频词(over-represented N-mers)来发现特

定模式。代表性的算法有MEME[27]、Gibbs sampling[28]。实验

表明对于位点进化较保守的物种(如酵母、果蝇等)有很好的

识别效果,而对于位点进化相对不保守的脊椎动物(如人、大

鼠、小鼠等),效果通常不尽人意[29]。另一种是采用支持向量

机、人工神经网络等机器学习分类算法。文献[11]提出了基于

数据域描述的一类SVM (One-Class SVM: OSVM)用于高维分

布区域估计。文献[12]采用OSVM用于顺势调控元件判别。该

方法分别对每类数据进行建模,没有从整个数据集出发,考虑

不同类转录因子之间的联系。另外,采用0-1编码的核函数不

适合长度不规则的TFBS序列。文献[3]结合SVM和ECOC算

法实现了转录因子的四分类问题。通过构建4个二分类SVM对

各个类别的转录因子独立地进行训练和分类,然后对分类结果

进行综合判别,好处是能够直接利用现有的二分类SVM,缺点

是不能对整个数据集同时学习,未考虑类间联系。近年来,多

任务学习已成为机器学习领域的一个研究热点。Evgeniou和

Micchelli提出了一个基于统计学习和函数正则化的多任务学习

理论框架[16,17],通过新的正则化因子对不同的任务同时学习,

捕获类间联系。本文在此基础上建立多数据域描述模型并用于

解决TFBS识别问题。

最近几年研究者相继提出了一系列核函数用于生物实体分

类[21-25],其共同的目标是寻找一种有效的相似性度量。本文采

用基于编辑距离的字符串核以更好度量TFBS序列的相似性。

2 多任务学习模糊样本集

本节首先简要回顾在Hilbert空间中利用核函数和正则化进

行多任务的学习方法,更多细节请参见文献[1,13,14,15,16]。然

后定义多任务学习模糊样本集。

在标准的单任务学习中,给定包含n个样本的样本集

X{(xi,yi):in}XY,假设这些样本是独立同分布

的,来自同一个XY上的未知概率分布P。学习的目标是获得一个有较小的期望风险E[L(y,f(x))]预测函数f。设L为预定义的损失函数,如标准二分类SVM的hinge损失函数:(1yif(xi))。一个常见解法是基于SLT和Tikhonov正则化,即最小化下列风险泛函: RT(f)1nL(yi,f(xi))||f||2K (3) in其中 ||f||2K 对应f在 Hilbert空间某一子空间HK中的范数,用来度量假设空间的复杂度。参数 为正则化参数,用来权衡训练误差和假设空间的复杂度。可以证明, 式(3) 的解可表示为 f(x)cik(xi,x) (4) in其中{ci}是一个实值参数集,k(,)是核函数,在Hilbert空间中具有再生性。 Evgeniou和Micchelli在Tikhonov正则化的基础上将单任务学习拓展到多任务的情况,提出了基于SLT和正则化的多任务学习正则化泛函[16]。假设一共有m个任务,第l个任务包含nl个样本点,输入空间Xld, lm。 为估计参数向量u(umdl:lm),通过最小化下列泛函: R(u):1mnL(yil,u'xil)J(u) (5) lminl其中,L为预定义的损失函数,为一参数, 用于控制两个指标的权衡。J(u)是正则化因子。多任务学习的目标是从这些样本中同时学习所有m个任务的预测函数f)uTl(xlx。针对TFBS识别问题,本文仅讨论各任务输入空间相同的情况,即X1X2Xm。在后续工作中,我们将讨论输入空间不一致的情况。下面引入Zadeh提出模糊子集的概念[17,18],定义多任务学习模糊样本集。 定义1 (模糊子集)设X是一个论域,给出映射A:X[0,1],xA(x) 则A确定X的一个模糊子集A。A(x)称为X对A的隶属度。全体X的模糊子集组成的集合记为(X),称为X的模糊幂集。 定义2 (多任务学习模糊样本集) 假设共有m个任务(或m个类),第l个任务包含nl个样本,用A

l(X)表示。为第l个任务的每个样本点xil赋予一个隶属度,记为sil。这样,第l个任务的模糊样本集可表示为A{(x1l,s1l),...,(xnll,snll)}dl[0,1],其中sil[0,1]。若规定sil{0,1},则不允许样本带有不确定信息。 需要指出引入模糊样本的主要目的是利用样本点的先验不确定信息增强损失函数对离群点的鲁棒性,原则上并不违背统计学习理论。 3 基于多数据域描述的TFBS识别 本节讨论在多任务学习理论的基础上建立一个多数据域描

述模型 (Multiple Data Domain Description by Multiple

第2 期 陈鸣等:基于多数据域描述的转录因子结合位点识别方法 3 Hyperspheres: MDMH),并结合核方法用于转录因子结合位点识

别问题。

3.1 多数据域描述模型

借助定义2,引入被赋予隶属度的模糊样本集。对于一个m

类数据域描述问题,试图用m个超球覆盖来自m类的训练数

据,每个超球包含来自训练数据的一类子集。训练的目标是同

时寻找所有m个超球面的球心c和半径R, 并且最小化R。一

种常见的做法是分别对每类样本数据分别建立相应的数据域描

述[20],缺点是没有从样本集整体上考虑,忽略了类间联系,不

能充分地利用样本集。为此,本文建立的多数据域描述对所有

类别的样本同时学习并获得所有类的域描述,这样既能充分利

用所有类别的已知样本,同时又一定程度上考虑了类别之间的

联系。

定义3 (多数据域描述模型) 假设有m类数据样本,第l类

包含nl个样本点,样本总数记为nl类模糊样本

lnl。第m

集记为Al{(x1l,s1l),...,(xnll,snll)},其中sil[0,1]。假设这

些样本独立同分布,来自XlYl上的一个联合概率分布P。则

MDMH 模型表示为

flg(x|Rl,cl) (6)

其中,g()是模型,定义一个超球假设类。覆盖第l类

(lm)样本的超球可用一般距离空间中的一个闭球描述,

即BRl(xcl){xX:d(x,cl)Rl}。其中x是输入,Rl和cl

是第l类的参数,示例了假设类中的一个假设。下面的定义给

出求解MDMH模型的最优化问题。

定义4 (MDMH优化问题) 假设有m类数据样本,所有样

本点构成的全体记作XXll,代表原始输入对象的全空

m

间。设H为Hilbert空间,(,)是其上的内积。||||为Hilbert

空间H的一个范数,xH

,||x||。通过适当的特

征映射:XlH,将原始空间中的样本点映射到Hilbert空

间H。这样,MDMH模型的优化过程定义为求解下列具有不

等式约束的优化问题: min121

mRl

silillmnvlminl

s.t.||(xil)c2

l||R2

lil (7)

il0,Rl0

其中Rl,cl分别为第l个超球的半径和球心,il为松弛变

量,v为惩罚因子, 其作用为平衡超球面的大小和落于超球外异

常点的数量。显然,这是一个具有不等式约束的非线性规划问

题,其目标函数和不等式约束条件都是二次的。下面的定理给

出原始最优化问题(7)的对偶问题,将非线性不等式约束转化为

线性等式约束,将原问题转化为一个二次凸规划问题求解。

定理1 MDMH的原始最优化问题(7)的对偶问题是求解

下列二次规划问题 max||(x2il)||miljl((xil),(xjl))liilmnllmijnlnls.t.i1ilnlm,0sililnv(inl,lm) (8) 显然,(7)的最优解应满库恩-塔克必要条件,即 il(R2lil||(x2il)cl||)0 ilil0 (9) il0,il0证明 首先引入(7)的Lagrange函数 L(Rl,c1l,;,)mR21lslnvlililmminl R2lil||(x2il)cl||) (10) liil(mnlilillminl其中(11,...,il,...nmm)T,(11,...,il,...nmm)T为Lagrange乘子。根据Wolfe对偶的定义,分别求Lagrange函数式(10)关于Rl,cl,il的极小点。由极值条件得 LR2Rl2Rlil0,lmin Lcil((xil)cl)0, (11) linlLsililil0.ilnv即 1iilnlm, (12) clmiil(xil), (13) nl sililnvil. (14) 将式(12-14)代入Lagrange函数式(10),得证。 第l个超球的半径Rl可通过位于其球面上的样本点(记yl)求解,满足下式: R2l||(yl)cl||2(lm). (15) 下面说明如何寻找位于超球面上的点。 定理2. 设式(8)是MDMH原始优化问题(7)的对偶问题,定义x(l)surf{xsilil:0ilnv;xilX_l,inl},则对任意xx(l)surf是位于第l个超球面上的点,成立R22l||(xilcl||。 证明 当0sil

ilnv时,有s

ililnvil0。由库恩-

塔克必要条件式(9)的R22

il(lil||(xil)cl||)0知:

4 计算机应用与软件 2006年 Rl2il||(xil)cl||20。再由ilil0和il0,得序列片段,记xx1x2xm,yy1y2yn(xi,yi),长

度分别为|x|m,|y|n,(m,n)。令ò代表空串,由组

成的所有字符串的全体记为:X{ }il0,从而Rl2||(xil)cl||2。 设yl为满足定理2的位于第l个超球面上的任意一点,

lm,将式(13)代入式(15),得到 n1n,构成TFBS序

Rl2||(yl)||22mil((yl),(xil))

inl

jl列的输入空间。 定义如下基于编辑距离的字符串核作为学习机的核函数: (16) m2

inljnlil((xil),(xjl))k(x,y)exp{Edit(x,y)}, (24) 其中Edit(x,y)代表x和y的编辑距离。为一参数,为避免

Gram矩阵强对角占优,需根据具体的应用选取值,本文实

(17) 验中取0.2。显然,x与y越相似,k(x,y)的值越大。

通过以上输入空间和核函数的定义,利用式(19)对数据库

中的TFBS样本进行学习获得多数据域描述,根据式(21-23)对

测试样本进行分类。下面在真实数据集上验证方法的有效性。

(18) 对于测试数据x,MDMH的第l类判别式为 其中, Rl2||(x)cl||2||(x)cl||2fl1 Rl2Rl2||(x)cl||2||(x)||22mil((x),(xil)) inl

m2

inljnliljl((xil),(xjl))4 实验方法与结果讨论

4.1 实验数据

本文从最新的TRANSFAC数据库(Release 9.4)[26]中取出

50组脊椎动物转录因子结合位点作为样本集,均为权威机构通

过生物学实验验证获得的真实数据。选取的原则是尽可能使位

点的长度和每组位点数分布均匀,忽略长度在5~15bp以外的位

点(很可能是噪声)。该数据集的一般性描述统计如表1所示,

表 1 样本数据集的一般性描述统计

通过引入核函数k(x,y)((x),(y)),MDMH的最优化问题(8)变为 max lminlililk(xil,xil)mlmiilnljlk(xil,xjl) jnls.t.inl1,ms0ilil(inl,lm)nv (19) 对于测试数据x,MDMH的第l类判别式(17)变为 Rl2||(x)cl||2||(x)cl||2fl1Rl2Rl2

k(x,x)2milk(x,xil)m

1inl2iilnljlk(xil,xjl)

jlj nlk(yl,yl)2milk(yl,xil)m2

inliilnlk(xil,xjl)4.2 实验结果 本实验的具体环境为一台运行Windows XP的PC机,具有Pentium Centrino Duo 1.83G 双核CPU和2G内存。所有代码用

MATLAB实现。

实验分5组进行,第1组的训练样本来自前10类,记为

M-10;第2组来自前20类(M-20);第3组前30类(M-30);

第4组则包含所有50个类的样本(M-50)。以上第1~4组实

验的测试样本均来自前10个类。 第5组实验的训练样本和测

试样本均来自前10个类,采用One-class SVM(即模型中取

m1的情况,不考虑类间联系),并同前4组实验进行比较。

我们采用交叉验证来测试算法的性能:每次取第l(lm)类的

一个样本作为测试样本,剩余的nl1个样本和其他m1类的

所有样本作为训练样本,反复进行直到所有类别的样本测试完

毕。算法的性能度量采用生物信息学中常用的三个指标:敏感

性(Sensitivity)、特异性(Specificity)和F-measure,其中

F-measure通过下式计算:

jnl (20) 对于多分类问题,最常见的情形是判别测试样本x最可能所属的类别,通过求 f(x)argmaxfl(x;Rl,cl). l(21) 另一种情形是预先设定一个阈值,大于这个阈值的判别为样本所属的类,可通过求下面的截集得到 f{l:fl(x),lm} (22) 还有一种情形是希望将测试样本x判为最有可能的fsup{fl},记fm则xnif{}N(Nm)个类别。nilf,maxlmlm所属的N个类别为 fN{l:#{fl(x)}N,[fmin,fmax],lm} (23) 3.2 基于多数据域描述的TFBS识别 如前所述,TFBS的识别问题可看作是一个多分类问题。根

据定义,TFBS在计算机中可表示为由字母表{A,G,C,T}

构成的一定长度的字符串。设x,y分别为两个待比较的TFBSF-measure=2SensitivitySpecificity Sensitivity+Specificity(25) 以上5组实验独立进行,对每组实验分别得出上述3个性

第2 期 陈鸣等:基于多数据域描述的转录因子结合位点识别方法 5 能指标。表2给出了5组实验的性能指标均值。

表 2 五组实验的性能比较

题。当样本包含的类别数较少时(如:m10),基于MDMH

的TFBS识别方法性能略低于One-class SVM方法。但随着训

练集包含的类别数的增加,MDMH方法的预测准确率有不断提

高的趋势,当m50时,预测准确率达到88%,明显高于

One-class SVM。这表明当训练集包含足够多类别的样本时,

MDMH能充分利用来自所有类别的训练样本,有效地捕获多类

别间的联系,提高预测准确率。

5 结论和进一步工作

本文建立了一个基于多任务学习理论的多数据域描述模

型:MDMH,并在此基础上设计了一个转录因子结合位点识别

算法,从整体上对所有类别的样本同时学习,充分地利用了数

量有限的已知样本,同时考虑了类别间的联系。针对生物序列

的特点,采用基于编辑距离的字符串核来度量TFBS之间的相

似性。实验获得了较高的预测准确率。

在后续工作中,我们将对多任务学习理论进行完善,考虑

不同任务可能对应异构输入空间的情形。另外,本文假设数据

样本是独立同分布的,对解决一些实际问题有局限性,因此需

要考虑如何解除这个限制条件。其次,我们将从计算学习理论

的角度出发,给出一般多数据域描述模型泛化错误的界。对于

不同种类的多任务联系,考虑如何定义多任务核函数和改进正

则化因子以更好地捕获类间联系。再者,需要从计算代价上降

低多任务学习求解过程的复杂度或设计并行算法以适应大数据

量或实时系统。最后,针对TFBS识别问题,我们将引入更多

有效的生物学先验知识以提高预测效果,设计增量学习算法以

适应生物数据库快速增长的需求。

参 考 文 献

[1] Vapnik V. Statistical Learning Theory. Wiley-Interscience,

publication,1998.

[2] Cristianini N, Shaw-Taylar J. An Introduction to Support Vector

Machines. Cambridge, UK: Cambridge University Press, 2000.

[3] Zheng G, Qian Z. The combination approach of SVM and ECOC for

powerful identification and classification of transcription factor. BMC

Bioinformatics, 2008,9:282.

[4] Ulrich Kressel. Pairwise classification and support vector machines.

Advances in Kernel Methods-Support Vector Learning.

Cambridge,MA ,MIT Press ,1998. 255 - 268.

[5] B. Bakker and T. Heskes. Task clustering and gating for Bayesian

multi–task learning. Journal of Machine Learning Research, 4: 83–99,

2003.

[6] R. Caruana. Multi–task learning. Machine Learning, 28, p.41–75, 1997.

[7] T. Heskes. Empirical Bayes for learning to learn. Proceedings of

ICML–2000, ed. Langley, P., pp. 367–374, 2000. [8] S. Thrun and L. Pratt. Learning to Learn. Kluwer Academic Publishers, November 1997. [9] Tax D M J, Duin P R W. Support Vector Domain Description. Pattern Recognition Letters, 1999,20(11-13):1191-1199. [10] Malyscheff A M, Trafalis T B, Raman S. From Support Vector Machine Learning to the Determination of the Minimum Enclosing Zone. Computers and Industrial Engineering, 2002,42(1):59. [11] Scholkopf,B. et al. Estimating the support of a high-dimensional distribution. Neural Computing, 13, 1443–1471,2001. [12] Jiang B, Zhang M Q, Zhang X. OSCAR: One-class SVM for accurate recognition of cis-elements. Bioinformatics, 23(21), pages 2823-2826, 2007. [13] T. Evgeniou, M. Pontil, and T. Poggio. Regularization networks and support vector machines. Advances in Computational Mathematics, 13:1–50, 2000. [14] J. Shawe-Taylor and N. Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. [15] B. Schölkopf and A. J. Smola. Learning with Kernels. The MIT Press, Cambridge, MA, USA, 2002. [16] T. Evgeniou, C. A. Micchelli and M. Pontil. Learning multiple tasks with kernel methods. Journal of Machine Learning Research, 6:615–637, 2005. [17] A. Caponnetto, C. A. Micchelli and M. Pontil. Universal Multi-Task Kernels. Journal of Machine Learning Research, 9:1615–1646, 2008. [18] Zadeh L A. Fuzzy Sets. Information and Control. 1965(3). [19] Zadeh L A. Fuzzy Sets as a basis for a theory of possibility. Fuzzy Sets and Systems. 1978(1). [20] David M.J. Tax, Robert P.W.Duin. Data Domain Description using Support Vectors. ESANN'1999 proceedings-European Symposium on Artificial Neural Networks, 1999, pages 251-256. [21] C. Leslie, E. Eskin, and W.S. Noble. The spectrum kernel: A string kernel for svm protein classification. Proceedings of the Pacific Symposium on Biocomputing, pages 564–575, 2002. [22] C. Leslie, E. Eskin, and W.S. Noble. Mismatch string kernel for svm protein classification. Advances in Neural Information Processing Systems, 15:1417–1424, 2003b. [23] D. Haussler. Convolution kernels on discrete structures. UC Santa Cruz Technical Report UCS-CRL-99-10, 1999. [24] Liao, Li, and W. S. Noble. Combining pairwise sequence similarity and support vector machines for remote protein homology detection. In Proceedings of the Sixth Annual International Conference on Research in Computational Molecular Biology, pages 225–232, 2002. [25] T. Jaakkola, M. Diekhans, and D. Haussler. Using the fisher kernel method to detect remote protein homologies. Proceedings of the Seventh International Conference on Intelligent Systems for Molecular Biology, pages 149–158, 1999. [26] Matys et al. Transfac: transcriptional regulation, from patterns to profiles. Nucleic Acids Res., 31:374–378, 2003. [27] Grundy, W. N., Bailey, T. L.,Elkan, C. P., and Baker, M. E. Meta-MEME: motif-based hidden Markov models of protein families. Computer Applications in the Biosciences, 13(4):397-406, 1997 [28] [3] Lawrence, C. E., Altschul,S. F., Boguski, M. S., Liu, J. S., Neuwald, A. F.,and Wootton, J. C. Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment. Science, 262(5131):208-214, 1993. [29] M. Tompa et al. Assessing computational tools for the discovery of transcription factor binding sites. Nature Biotechnology, (1), January

第23卷第2期

2006年2月 计算机应用与软件 Computer Applications and Software Vol.23, No.2 Feb. 2006

基于多数据域描述的转录因子结合位点识别

陈鸣 薛慧君 熊赟 朱扬勇

21211(复旦大学计算机科学技术学院 上海 200433) (内蒙古电子信息职业技术学院计算机科学系 呼和浩特 010011)

摘 要 转录因子结合位点的识别对于理解转录调控机制起着重要作用,也是后基因组时代面临的巨大挑战之一。本文提出了一个基于多任务学习的转录因子位点的识别方法。首先建立了一个基于多任务学习理论的多数据域描述模型,然后结合核方法设计转录因子结合位点多分类识别算法。最后对取自于TRANSFAC数据库的真实数据进行交叉验证测试。实验结果表明该方法能充分地利用稀缺的训练样本,有效地捕获不同类别间的联系,从而获得了较高的预测准确率。

关键词 多任务学习 转录因子结合位点 多数据域描述 核方法

Transcription Factor Binding Sites Recognition by Multiple Data Domain Description

Chen Ming1 Xue Huijun2 Xiong Yun1 Zhu Yangyong1

1

2(School of Computer Science, Fudan University, Shanghai 200433,China) (Department of Computer Science, Inner Mongolia Electronic Information Vocational Technical College, Hohhot 010011,China)

Abstract This paper presents a multi-task learning approach to the problem of Transcription Factor Binding Sites (TFBS) recognition. Firstly, a new multiple data domain description model was established; it was theoretically founded on the new kernel-based multi-task learning formulation of learning multiple tasks simultaneously in order to capture shared structures among tasks. Then, the model was naturally cast to the case of TFBS recognition with kernel methods. Finally, real data set was retrieved from TRANSFAC database to validate the effectiveness of the proposed method. The experimental result indicated that our multi-task learning approach can significantly improve the prediction accuracy by virtue of using training examples from multiple classes as a whole and meanwhile capturing their inter-class relatedness.

Keywords Multi-task Learning Transcription Factor Binding Sites Multiple Data Domain Description Kernel Methods

0 引 言

在分子生物学领域,理解转录调控机制是后基因组时代重

大挑战之一。达到这一目标的重要步骤是转录因子结合位点

(Transcription Factor Binding Sites: TFBS)的识别。转录因子

结合位点是基因上游启动子区域长度为5~15bp的短序列片段,

被转录因子结合以调控下游基因。通过生物学试验检测TFBS

的方法由于开销大、耗时长等缺点,不适合处理海量数据。因

此,越来越多的计算识别方法被提出用于初选待测位点。通常

一个转录因子结合位点可以被一个或多个转录因子结合,而相

关研究表明这种结合具有较高的特异性。因此,在计算分子生

物学领域,TFBS的识别问题可视为一个多类别模式分类问题,

即给定一个未知样本,判定它可能被那一类或哪几类转录因子

结合。

目前,基于核方法和正则化理论的机器学习分类算法是最

常用的方法之一,也是统计学习理论 (Statistical learning theory:

[1,2]SLT) 的核心内容。SVM作为经典的分类算法,基于VC维

理论和结构风险最小化原理,克服了传统机器学习分类算法维

数灾难、陷入局部最优解、过拟合等缺陷,对未知样本具有良

好的泛化性能,因此被广泛应用于模式识别、文本分类、生物信息学、信息安全等诸多领域。 传统SVM主要用于解决二分类问题。近年来提出的多分类SVM作为原始SVM的扩展,是将多分类问题分解为多个两分类问题,忽略了类别间的联系。其中,“一对多”策略采用了一个正负类不平衡的训练集,建立的每个二分类器负样本数远大于正样本。另外,现有的多分类SVM不适用于只包含正样本集的情况,而TFBS负样本集无法构造。因此,利用现有的多分类SVM处理TFBS识别问题并不恰当,需要设计一个能直接用于多类样本集的多分类器。 基于正则化理论建立的分类器的结构风险通常由两部分控制:经验风险(训练误差)和置信界。以二分类问题为例,一个规范超平面构成的指示函数集 的VC维h满足 h(x)sgn[(wx)b] (1) (2) hmin([R2A2],n)1, 其中,sgn[]为符号函数,n为向量空间的维数,R为覆盖样本向量的超球半径,||w||A。通过式(2)不难发现,一定

2 计算机应用与软件 2006年 程度上减小R2,能使VC维的上界h减小,从而降低学习机的

复杂性,以提高预测函数的泛化能力。这正是数据域描述模型

的基本思想。数据域描述是对数据集所在的类别进行描述,拒

绝可能来自其他类的数据[9,10]。本文在最新的多任务学习理论基

础上将数据域描述问题拓展到多类的情况,并用于解决TFBS

识别问题,从整体上对来自所有类别的样本同时学习,同时捕

获类别之间的联系。

SVM采用的hinge损失函数对孤立点和噪声都是较敏感

的,即对离群点不具有鲁棒性。本文根据训练样本的置信度不

同,在惩罚项中引入模糊成员函数以区别对待,对置信度大的

样本给予充分重视,相反(很可能是噪声点)则限制其作用。

基于核方法的机器学习算法的核心问题是核函数的选择,

因其很大程度上影响分类器的性能。先前基于核方法的生物实

体识别算法通常采用0-1编码的多项式核,显然不适合长度不

规则的生物序列。本文采用基于编辑距离的字符串核来度量

TFBS之间的相似性,以更好地比较序列间的相似性。

1 相关工作

在计算分子生物学领域,常见的TFBS识别方法是通过从

海量基因序列中寻找超频词(over-represented N-mers)来发现特

定模式。代表性的算法有MEME[27]、Gibbs sampling[28]。实验

表明对于位点进化较保守的物种(如酵母、果蝇等)有很好的

识别效果,而对于位点进化相对不保守的脊椎动物(如人、大

鼠、小鼠等),效果通常不尽人意[29]。另一种是采用支持向量

机、人工神经网络等机器学习分类算法。文献[11]提出了基于

数据域描述的一类SVM (One-Class SVM: OSVM)用于高维分

布区域估计。文献[12]采用OSVM用于顺势调控元件判别。该

方法分别对每类数据进行建模,没有从整个数据集出发,考虑

不同类转录因子之间的联系。另外,采用0-1编码的核函数不

适合长度不规则的TFBS序列。文献[3]结合SVM和ECOC算

法实现了转录因子的四分类问题。通过构建4个二分类SVM对

各个类别的转录因子独立地进行训练和分类,然后对分类结果

进行综合判别,好处是能够直接利用现有的二分类SVM,缺点

是不能对整个数据集同时学习,未考虑类间联系。近年来,多

任务学习已成为机器学习领域的一个研究热点。Evgeniou和

Micchelli提出了一个基于统计学习和函数正则化的多任务学习

理论框架[16,17],通过新的正则化因子对不同的任务同时学习,

捕获类间联系。本文在此基础上建立多数据域描述模型并用于

解决TFBS识别问题。

最近几年研究者相继提出了一系列核函数用于生物实体分

类[21-25],其共同的目标是寻找一种有效的相似性度量。本文采

用基于编辑距离的字符串核以更好度量TFBS序列的相似性。

2 多任务学习模糊样本集

本节首先简要回顾在Hilbert空间中利用核函数和正则化进

行多任务的学习方法,更多细节请参见文献[1,13,14,15,16]。然

后定义多任务学习模糊样本集。

在标准的单任务学习中,给定包含n个样本的样本集

X{(xi,yi):in}XY,假设这些样本是独立同分布

的,来自同一个XY上的未知概率分布P。学习的目标是获得一个有较小的期望风险E[L(y,f(x))]预测函数f。设L为预定义的损失函数,如标准二分类SVM的hinge损失函数:(1yif(xi))。一个常见解法是基于SLT和Tikhonov正则化,即最小化下列风险泛函: RT(f)1nL(yi,f(xi))||f||2K (3) in其中 ||f||2K 对应f在 Hilbert空间某一子空间HK中的范数,用来度量假设空间的复杂度。参数 为正则化参数,用来权衡训练误差和假设空间的复杂度。可以证明, 式(3) 的解可表示为 f(x)cik(xi,x) (4) in其中{ci}是一个实值参数集,k(,)是核函数,在Hilbert空间中具有再生性。 Evgeniou和Micchelli在Tikhonov正则化的基础上将单任务学习拓展到多任务的情况,提出了基于SLT和正则化的多任务学习正则化泛函[16]。假设一共有m个任务,第l个任务包含nl个样本点,输入空间Xld, lm。 为估计参数向量u(umdl:lm),通过最小化下列泛函: R(u):1mnL(yil,u'xil)J(u) (5) lminl其中,L为预定义的损失函数,为一参数, 用于控制两个指标的权衡。J(u)是正则化因子。多任务学习的目标是从这些样本中同时学习所有m个任务的预测函数f)uTl(xlx。针对TFBS识别问题,本文仅讨论各任务输入空间相同的情况,即X1X2Xm。在后续工作中,我们将讨论输入空间不一致的情况。下面引入Zadeh提出模糊子集的概念[17,18],定义多任务学习模糊样本集。 定义1 (模糊子集)设X是一个论域,给出映射A:X[0,1],xA(x) 则A确定X的一个模糊子集A。A(x)称为X对A的隶属度。全体X的模糊子集组成的集合记为(X),称为X的模糊幂集。 定义2 (多任务学习模糊样本集) 假设共有m个任务(或m个类),第l个任务包含nl个样本,用A

l(X)表示。为第l个任务的每个样本点xil赋予一个隶属度,记为sil。这样,第l个任务的模糊样本集可表示为A{(x1l,s1l),...,(xnll,snll)}dl[0,1],其中sil[0,1]。若规定sil{0,1},则不允许样本带有不确定信息。 需要指出引入模糊样本的主要目的是利用样本点的先验不确定信息增强损失函数对离群点的鲁棒性,原则上并不违背统计学习理论。 3 基于多数据域描述的TFBS识别 本节讨论在多任务学习理论的基础上建立一个多数据域描

述模型 (Multiple Data Domain Description by Multiple

第2 期 陈鸣等:基于多数据域描述的转录因子结合位点识别方法 3 Hyperspheres: MDMH),并结合核方法用于转录因子结合位点识

别问题。

3.1 多数据域描述模型

借助定义2,引入被赋予隶属度的模糊样本集。对于一个m

类数据域描述问题,试图用m个超球覆盖来自m类的训练数

据,每个超球包含来自训练数据的一类子集。训练的目标是同

时寻找所有m个超球面的球心c和半径R, 并且最小化R。一

种常见的做法是分别对每类样本数据分别建立相应的数据域描

述[20],缺点是没有从样本集整体上考虑,忽略了类间联系,不

能充分地利用样本集。为此,本文建立的多数据域描述对所有

类别的样本同时学习并获得所有类的域描述,这样既能充分利

用所有类别的已知样本,同时又一定程度上考虑了类别之间的

联系。

定义3 (多数据域描述模型) 假设有m类数据样本,第l类

包含nl个样本点,样本总数记为nl类模糊样本

lnl。第m

集记为Al{(x1l,s1l),...,(xnll,snll)},其中sil[0,1]。假设这

些样本独立同分布,来自XlYl上的一个联合概率分布P。则

MDMH 模型表示为

flg(x|Rl,cl) (6)

其中,g()是模型,定义一个超球假设类。覆盖第l类

(lm)样本的超球可用一般距离空间中的一个闭球描述,

即BRl(xcl){xX:d(x,cl)Rl}。其中x是输入,Rl和cl

是第l类的参数,示例了假设类中的一个假设。下面的定义给

出求解MDMH模型的最优化问题。

定义4 (MDMH优化问题) 假设有m类数据样本,所有样

本点构成的全体记作XXll,代表原始输入对象的全空

m

间。设H为Hilbert空间,(,)是其上的内积。||||为Hilbert

空间H的一个范数,xH

,||x||。通过适当的特

征映射:XlH,将原始空间中的样本点映射到Hilbert空

间H。这样,MDMH模型的优化过程定义为求解下列具有不

等式约束的优化问题: min121

mRl

silillmnvlminl

s.t.||(xil)c2

l||R2

lil (7)

il0,Rl0

其中Rl,cl分别为第l个超球的半径和球心,il为松弛变

量,v为惩罚因子, 其作用为平衡超球面的大小和落于超球外异

常点的数量。显然,这是一个具有不等式约束的非线性规划问

题,其目标函数和不等式约束条件都是二次的。下面的定理给

出原始最优化问题(7)的对偶问题,将非线性不等式约束转化为

线性等式约束,将原问题转化为一个二次凸规划问题求解。

定理1 MDMH的原始最优化问题(7)的对偶问题是求解

下列二次规划问题 max||(x2il)||miljl((xil),(xjl))liilmnllmijnlnls.t.i1ilnlm,0sililnv(inl,lm) (8) 显然,(7)的最优解应满库恩-塔克必要条件,即 il(R2lil||(x2il)cl||)0 ilil0 (9) il0,il0证明 首先引入(7)的Lagrange函数 L(Rl,c1l,;,)mR21lslnvlililmminl R2lil||(x2il)cl||) (10) liil(mnlilillminl其中(11,...,il,...nmm)T,(11,...,il,...nmm)T为Lagrange乘子。根据Wolfe对偶的定义,分别求Lagrange函数式(10)关于Rl,cl,il的极小点。由极值条件得 LR2Rl2Rlil0,lmin Lcil((xil)cl)0, (11) linlLsililil0.ilnv即 1iilnlm, (12) clmiil(xil), (13) nl sililnvil. (14) 将式(12-14)代入Lagrange函数式(10),得证。 第l个超球的半径Rl可通过位于其球面上的样本点(记yl)求解,满足下式: R2l||(yl)cl||2(lm). (15) 下面说明如何寻找位于超球面上的点。 定理2. 设式(8)是MDMH原始优化问题(7)的对偶问题,定义x(l)surf{xsilil:0ilnv;xilX_l,inl},则对任意xx(l)surf是位于第l个超球面上的点,成立R22l||(xilcl||。 证明 当0sil

ilnv时,有s

ililnvil0。由库恩-

塔克必要条件式(9)的R22

il(lil||(xil)cl||)0知:

4 计算机应用与软件 2006年 Rl2il||(xil)cl||20。再由ilil0和il0,得序列片段,记xx1x2xm,yy1y2yn(xi,yi),长

度分别为|x|m,|y|n,(m,n)。令ò代表空串,由组

成的所有字符串的全体记为:X{ }il0,从而Rl2||(xil)cl||2。 设yl为满足定理2的位于第l个超球面上的任意一点,

lm,将式(13)代入式(15),得到 n1n,构成TFBS序

Rl2||(yl)||22mil((yl),(xil))

inl

jl列的输入空间。 定义如下基于编辑距离的字符串核作为学习机的核函数: (16) m2

inljnlil((xil),(xjl))k(x,y)exp{Edit(x,y)}, (24) 其中Edit(x,y)代表x和y的编辑距离。为一参数,为避免

Gram矩阵强对角占优,需根据具体的应用选取值,本文实

(17) 验中取0.2。显然,x与y越相似,k(x,y)的值越大。

通过以上输入空间和核函数的定义,利用式(19)对数据库

中的TFBS样本进行学习获得多数据域描述,根据式(21-23)对

测试样本进行分类。下面在真实数据集上验证方法的有效性。

(18) 对于测试数据x,MDMH的第l类判别式为 其中, Rl2||(x)cl||2||(x)cl||2fl1 Rl2Rl2||(x)cl||2||(x)||22mil((x),(xil)) inl

m2

inljnliljl((xil),(xjl))4 实验方法与结果讨论

4.1 实验数据

本文从最新的TRANSFAC数据库(Release 9.4)[26]中取出

50组脊椎动物转录因子结合位点作为样本集,均为权威机构通

过生物学实验验证获得的真实数据。选取的原则是尽可能使位

点的长度和每组位点数分布均匀,忽略长度在5~15bp以外的位

点(很可能是噪声)。该数据集的一般性描述统计如表1所示,

表 1 样本数据集的一般性描述统计

通过引入核函数k(x,y)((x),(y)),MDMH的最优化问题(8)变为 max lminlililk(xil,xil)mlmiilnljlk(xil,xjl) jnls.t.inl1,ms0ilil(inl,lm)nv (19) 对于测试数据x,MDMH的第l类判别式(17)变为 Rl2||(x)cl||2||(x)cl||2fl1Rl2Rl2

k(x,x)2milk(x,xil)m

1inl2iilnljlk(xil,xjl)

jlj nlk(yl,yl)2milk(yl,xil)m2

inliilnlk(xil,xjl)4.2 实验结果 本实验的具体环境为一台运行Windows XP的PC机,具有Pentium Centrino Duo 1.83G 双核CPU和2G内存。所有代码用

MATLAB实现。

实验分5组进行,第1组的训练样本来自前10类,记为

M-10;第2组来自前20类(M-20);第3组前30类(M-30);

第4组则包含所有50个类的样本(M-50)。以上第1~4组实

验的测试样本均来自前10个类。 第5组实验的训练样本和测

试样本均来自前10个类,采用One-class SVM(即模型中取

m1的情况,不考虑类间联系),并同前4组实验进行比较。

我们采用交叉验证来测试算法的性能:每次取第l(lm)类的

一个样本作为测试样本,剩余的nl1个样本和其他m1类的

所有样本作为训练样本,反复进行直到所有类别的样本测试完

毕。算法的性能度量采用生物信息学中常用的三个指标:敏感

性(Sensitivity)、特异性(Specificity)和F-measure,其中

F-measure通过下式计算:

jnl (20) 对于多分类问题,最常见的情形是判别测试样本x最可能所属的类别,通过求 f(x)argmaxfl(x;Rl,cl). l(21) 另一种情形是预先设定一个阈值,大于这个阈值的判别为样本所属的类,可通过求下面的截集得到 f{l:fl(x),lm} (22) 还有一种情形是希望将测试样本x判为最有可能的fsup{fl},记fm则xnif{}N(Nm)个类别。nilf,maxlmlm所属的N个类别为 fN{l:#{fl(x)}N,[fmin,fmax],lm} (23) 3.2 基于多数据域描述的TFBS识别 如前所述,TFBS的识别问题可看作是一个多分类问题。根

据定义,TFBS在计算机中可表示为由字母表{A,G,C,T}

构成的一定长度的字符串。设x,y分别为两个待比较的TFBSF-measure=2SensitivitySpecificity Sensitivity+Specificity(25) 以上5组实验独立进行,对每组实验分别得出上述3个性

第2 期 陈鸣等:基于多数据域描述的转录因子结合位点识别方法 5 能指标。表2给出了5组实验的性能指标均值。

表 2 五组实验的性能比较

题。当样本包含的类别数较少时(如:m10),基于MDMH

的TFBS识别方法性能略低于One-class SVM方法。但随着训

练集包含的类别数的增加,MDMH方法的预测准确率有不断提

高的趋势,当m50时,预测准确率达到88%,明显高于

One-class SVM。这表明当训练集包含足够多类别的样本时,

MDMH能充分利用来自所有类别的训练样本,有效地捕获多类

别间的联系,提高预测准确率。

5 结论和进一步工作

本文建立了一个基于多任务学习理论的多数据域描述模

型:MDMH,并在此基础上设计了一个转录因子结合位点识别

算法,从整体上对所有类别的样本同时学习,充分地利用了数

量有限的已知样本,同时考虑了类别间的联系。针对生物序列

的特点,采用基于编辑距离的字符串核来度量TFBS之间的相

似性。实验获得了较高的预测准确率。

在后续工作中,我们将对多任务学习理论进行完善,考虑

不同任务可能对应异构输入空间的情形。另外,本文假设数据

样本是独立同分布的,对解决一些实际问题有局限性,因此需

要考虑如何解除这个限制条件。其次,我们将从计算学习理论

的角度出发,给出一般多数据域描述模型泛化错误的界。对于

不同种类的多任务联系,考虑如何定义多任务核函数和改进正

则化因子以更好地捕获类间联系。再者,需要从计算代价上降

低多任务学习求解过程的复杂度或设计并行算法以适应大数据

量或实时系统。最后,针对TFBS识别问题,我们将引入更多

有效的生物学先验知识以提高预测效果,设计增量学习算法以

适应生物数据库快速增长的需求。

参 考 文 献

[1] Vapnik V. Statistical Learning Theory. Wiley-Interscience,

publication,1998.

[2] Cristianini N, Shaw-Taylar J. An Introduction to Support Vector

Machines. Cambridge, UK: Cambridge University Press, 2000.

[3] Zheng G, Qian Z. The combination approach of SVM and ECOC for

powerful identification and classification of transcription factor. BMC

Bioinformatics, 2008,9:282.

[4] Ulrich Kressel. Pairwise classification and support vector machines.

Advances in Kernel Methods-Support Vector Learning.

Cambridge,MA ,MIT Press ,1998. 255 - 268.

[5] B. Bakker and T. Heskes. Task clustering and gating for Bayesian

multi–task learning. Journal of Machine Learning Research, 4: 83–99,

2003.

[6] R. Caruana. Multi–task learning. Machine Learning, 28, p.41–75, 1997.

[7] T. Heskes. Empirical Bayes for learning to learn. Proceedings of

ICML–2000, ed. Langley, P., pp. 367–374, 2000. [8] S. Thrun and L. Pratt. Learning to Learn. Kluwer Academic Publishers, November 1997. [9] Tax D M J, Duin P R W. Support Vector Domain Description. Pattern Recognition Letters, 1999,20(11-13):1191-1199. [10] Malyscheff A M, Trafalis T B, Raman S. From Support Vector Machine Learning to the Determination of the Minimum Enclosing Zone. Computers and Industrial Engineering, 2002,42(1):59. [11] Scholkopf,B. et al. Estimating the support of a high-dimensional distribution. Neural Computing, 13, 1443–1471,2001. [12] Jiang B, Zhang M Q, Zhang X. OSCAR: One-class SVM for accurate recognition of cis-elements. Bioinformatics, 23(21), pages 2823-2826, 2007. [13] T. Evgeniou, M. Pontil, and T. Poggio. Regularization networks and support vector machines. Advances in Computational Mathematics, 13:1–50, 2000. [14] J. Shawe-Taylor and N. Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. [15] B. Schölkopf and A. J. Smola. Learning with Kernels. The MIT Press, Cambridge, MA, USA, 2002. [16] T. Evgeniou, C. A. Micchelli and M. Pontil. Learning multiple tasks with kernel methods. Journal of Machine Learning Research, 6:615–637, 2005. [17] A. Caponnetto, C. A. Micchelli and M. Pontil. Universal Multi-Task Kernels. Journal of Machine Learning Research, 9:1615–1646, 2008. [18] Zadeh L A. Fuzzy Sets. Information and Control. 1965(3). [19] Zadeh L A. Fuzzy Sets as a basis for a theory of possibility. Fuzzy Sets and Systems. 1978(1). [20] David M.J. Tax, Robert P.W.Duin. Data Domain Description using Support Vectors. ESANN'1999 proceedings-European Symposium on Artificial Neural Networks, 1999, pages 251-256. [21] C. Leslie, E. Eskin, and W.S. Noble. The spectrum kernel: A string kernel for svm protein classification. Proceedings of the Pacific Symposium on Biocomputing, pages 564–575, 2002. [22] C. Leslie, E. Eskin, and W.S. Noble. Mismatch string kernel for svm protein classification. Advances in Neural Information Processing Systems, 15:1417–1424, 2003b. [23] D. Haussler. Convolution kernels on discrete structures. UC Santa Cruz Technical Report UCS-CRL-99-10, 1999. [24] Liao, Li, and W. S. Noble. Combining pairwise sequence similarity and support vector machines for remote protein homology detection. In Proceedings of the Sixth Annual International Conference on Research in Computational Molecular Biology, pages 225–232, 2002. [25] T. Jaakkola, M. Diekhans, and D. Haussler. Using the fisher kernel method to detect remote protein homologies. Proceedings of the Seventh International Conference on Intelligent Systems for Molecular Biology, pages 149–158, 1999. [26] Matys et al. Transfac: transcriptional regulation, from patterns to profiles. Nucleic Acids Res., 31:374–378, 2003. [27] Grundy, W. N., Bailey, T. L.,Elkan, C. P., and Baker, M. E. Meta-MEME: motif-based hidden Markov models of protein families. Computer Applications in the Biosciences, 13(4):397-406, 1997 [28] [3] Lawrence, C. E., Altschul,S. F., Boguski, M. S., Liu, J. S., Neuwald, A. F.,and Wootton, J. C. Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment. Science, 262(5131):208-214, 1993. [29] M. Tompa et al. Assessing computational tools for the discovery of transcription factor binding sites. Nature Biotechnology, (1), January


相关文章

  • 跟踪:转录因子激活与靶基因
  • 跟踪:转录因子激活与靶基因 转录因子上游信号通路,以及靶基因专题讨论. 转录因子靶点的鉴定 鉴定转录因子的靶点的第一步通常是将所研究对像敲除掉或超量表达,然后考察基因表达的变化,通常的方法有RT-PCR ,消减杂交(subtractive ...查看


  • 现代分子生物学作业
  • 现代分子生物学与基因工程作业 姓名________________班级_____________学号________________ 1.绝大多数的真核生物染色体中均含有HI.H2A.H2B.H3和H4五种组蛋白,在不同物种之间它们的保守性 ...查看


  • 分子生物学基础知识
  • 素材 聚合酶链式反应 PCR(生物学的聚合酶链反应)一般指聚合酶链式反应 聚合酶链式反应是一种用于放大扩增特定的DNA 片段的分子生物学技术,它可看作是生物体外的特殊DNA 复制,PCR 的最大特点,是能将微量的DNA 大幅增加.由1983 ...查看


  • 分子遗传学
  • 第一章 1.理解 Genomes, Transcriptomes 和 Proteomes三个名词,并阐明它们在基因组表达过程中是如何联系在一起的. 基因组是指生物的整套染色体所含有的全部DNA或RNA序列. 转录组是指基因组表达的最初产物, ...查看


  • 分子生物学考试复习题及答案
  • 第一章 绪论 一.简述分子生物学的主要内容. 1.DNA重组技术(又称基因工程) 2. 基因表达调控研究 3.生物大分子的结构功能的研究--结构分子生物学 4.基因组.功能基因组与生物信息学研究 二.什么是遗传学的中心法则和反中心法则? 遗 ...查看


  • 现代分子生物学课后答案
  • 现代分子生物学部分课后习题及答案 第一章 绪论 1. 你对现代分子生物学的含义和包括的研究范围是怎么理解的? 分子生物学是从分子水平研究生命本质的一门新兴边缘学科,它以核酸和蛋白质等生物大分子的结构及其在遗传信息和细胞信息传递中的作用为研究 ...查看


  • 基因调控网络数据分析方法研究
  • 第23卷第2期 Vol.23No.2周口师范学院学报JournalofZhoukouNormalUniversity2006年3月Mar.2006 基因调控网络数据分析方法研究 曹祥红,11,2 (1.郑州轻工业学院2.华中科技大学,430 ...查看


  • 医学分子生物学简答题
  • 四.简答题 1.碱基对间在生化和信息方面有什么区别? 2.在何种情况下有可能预测某一给定的核苷酸链中"G"的百分含量? 3.真核基因组的哪些参数影响 Cot1/2值? 4.请问哪些条件可促使 DNA复性(退火)? 5.为 ...查看


  • 现代分子生物学名词解释and简答题
  • 1. 基因 产生一条多肽链或功能RNA所必需的全部核苷酸序列. 2. 基因组 基因组是生物体内遗传信息的集合,是指某个特定物种细胞内全部DNA分子的总和. 3. 顺反子 由顺/反测验定义的遗传单位,与基因等同,都是代表一个蛋白质质的DNA ...查看


热门内容