3 基因识别方法的评估
如此众多的基因识别软件,怎样全面地评价它们各自的优劣呢?要比较预测的准确性和 可靠性,必须综合考虑以下因素:采用算法的种类(神经网络,隐马科夫模型,还是其它)、 训练和评估使用的序列数量以及评估的方法。
灵敏度(Sensitivity,Sn)和特异性(Specificity,Sp)是最常用的两项指标。根据定义, Sn = TP / ( TP+FN ),表示在所有 exon 中,有多少被预测出来。Sp = TP / (TP+FP ),表示预测 出来的 exon 中,有多少是正确的。(如图 4 所示)
4.1 1 GeneMark
GeneMark 是由位于美国亚特兰大的佐治亚理工学院 Mark Borodovsky 的生物信息学研 究组开发的一套基因预测工具。它可应用于原核或真核生物系统,但具体使用时要加以注明, 以便选用正确的程序。
GeneMark 的原理是使用编码和非编码区的 Markov 模型,来评估某一滑动窗口内一段 DNA 序列编码蛋白质的潜力。该方法对局部编码潜力的变化较为敏感,据此画出的图形可 展示一段序列中编码潜力的详细分布。
GeneMark.hmm 预测一段序列整体的基因和基因间区。它使用隐 Markov 模型,用隐态 网络来反映基因组织的“语法”。GeneMark.hmm 可以找出将一段完整的序列划分为蛋白编
码区(可能包含 intron)和基因间区的最大可能性。
研究发现,细菌编码蛋白的基因中密码子的使用,可以反映其总体碱基构成。这是因为 密码子中核苷酸不同但有规律的非随机分布,据此可以识别许多细菌种属的蛋白编码序列。 这种分布的实质,取决于编码序列的碱基组成。这种位置特异性区别在富含 GC 的基因中表 现尤其明显。这就使得我们可以较为可靠地预测 DNA 序列中的阅读框和编码区。
FramePlot 就是据此原理开发的阅读框分析软件,用于预测高 GC 含量的细菌 DNA 中的 蛋白编码区。其结果以图形化输出,可以很容易地分辨出编码区和非编码区。使用时点击该 图中的 ORF 不仅可以看到核苷酸序列,还能看到推测出的氨基酸序列。
Glimmer(Gene Locator and Interpolated Markov Modeler)是一套主要用于寻找微生物 DNA 中基因的程序,主要适用于细菌及古生菌(archaea)基因组。它使用插值 Markov 模 型(IMM)来识别编码区,并使之与非编码的 DNA 区分开来。该 IMM 方法综合使用从一阶 到八阶 Markov 模型,并根据每阶模型预测的能力进行加权。
Glimmer 是 TIGR 主要的微生物基因识别工具,已经成功地用于注释 B. burgdorferi, T. pallidum, T. maritima, D. radiodurans, M. tuberculosis, C. trachomatis, C. pneumoniae 等一系列 微生物全基因组。Glimmer 经适当修改后的版本 GlimmerM,可以应用于小型真核生物,已 成功地用于寻找疟原虫 P. falciparum.第二条染色体上的基因。
Glimmer 包括两部分。第一部分 build-imm.用于数据的训练,这部分程序接收一系列序 列,以此为依据建立相应的 IMM。这些序列可以是完整的基因,也可以是部分 ORF。对于 一个新的基因组,用于训练的数据可以这样构成:那些有较强数据库 hit 的基因,或很长的、 统计意义上几乎可以肯定是基因的 ORF。第二部分是 glimmer,它使用已训练好的 IMM 来 识别整个基因组中可能的基因。Glimmer 可以自动地解决由重叠基因带来的潜在冲突:选择 其中之一。它也可以识别真正的基因重叠,将其标示出来,供用户仔细研究。不过这种情况 较少出现。
GENSCAN是由斯坦福大学的Chris Burge和Samuel Karlin于1997年开发的。该程序使用 推广的五阶Markov模型来发现exon、intron、它们的剪切位点以及启动子区域。它使用了加 权矩阵、加权队列和最大依赖性分解法(maximal dependence decomposition)来建立模型。 GENSCAN的另一个特点是它可同时找寻DNA双链上的基因,也可以找出序列中存在的部
分、完整或多个基因。它参考了基因组结构的多项特征,例如对于判断起始、中间及最终外 显子,它使用不同的长度分布函数。不同种类外显子有不同的长度分布,表明有结构上的限 制来制约有效的剪切。加权矩阵假定相邻或不相邻的donor剪切信号之间互不相关,加权队 列假定只有相邻位置间才有关联。最大依赖性分解法则认为相邻或不相邻的剪切信号之间都 有明显的依赖关系。(如图5所示)
其大致运行步骤如下:
1.产生所有可能的外显子列表:主要是分析6-mer(双密码子),例如起始密码子,剪 切donor,剪切acceptor,终止密码子等,而不考虑编码的潜力。对于10kb长的序列, 可能得到上千个这样的可能外显子。
2.去掉以上列表中肯定不可能的:采用约30条筛选判断条件。这样上表中95%会被过 滤掉。
3.利用神经网络评估剩下可能的外显子:
输入:编码可能性,GC含量,长度,剪切信号强度,相邻区域内含子数量 输出:可能外显子score
Grail的升级版GrailExp同时结合使用EST数据预测UTR边界及较短的外显子。
FGENESH 是另一个基于隐马科夫模型(HMM)的基因预测软件,也是迄今为止最快(比 GENSCAN 快 50 至 100 倍)、最准确的。它主要用于真核生物基因组。在近年来完成的水稻 基因组注释中,其特异性和灵敏度都优于其它同类软件,获得了很大的成功。经适当修改后, 也可用于细菌(FGENESB)和病毒(FGENESV)。
5 基因识别的未来发展方向
在过去一二十年间,基因识别方法取得了许多重大突破。然而,仍然存在着一些尚待解 决的问题。首先,较短的exon难于识别,因为作为判别依据的统计学特征可能并未在其中出 现。其次,目前还没有哪个软件可以处理可变剪切,或者找出准确的启动子区域。再者,对 于很长的DNA序列,基因识别的准确性明显降低,因为其中可能有多个基因,也可能出现 重叠或者嵌套的基因。另外,我们也还需要更加合理、充分的评估系统。
不管采用什么方法,基因识别在很大程度上依赖于我们现有的生物学知识,尤其是基因
表达分子水平的知识。所以,需要实验生物学者和计算生物学者两方面共同的努力,使得基 因识别更加准确。
1.David, W. Mount. Bioinformatics: sequence and genome analysis. 2001 中文版:钟扬等译, 李亦学等校,高等教育出版社出版,第八章。
2.R.Guigo, P. Agarwal et al. An assessment of gene prediction accuracy in large DNA sequences. Genome research, vol. 10, pp. 1631-1642, 2000.
3.E. N. Trifonov, and J. L. Sussman, “The pitch of chromatin DNA is reflected in its nucleotide sequence”, Proc. of the Nat. Acad. Sci., USA, vol. 77, pp. 3816–3820, 1980.
4. D. Kulp, D. Haussler, M. Reese, and F. Eeckman. A generalized hidden Markov model for the recognition of human genes in DNA. In D. J. States, P. Agarwal, T. Gaasterland, L. Hunter, and R. Smith,editors, Proc. Conf. On Intelligent Systems in Molecular Biology ’96, pages 134–142. AAAI/MIT Press,1996. St. Louis, Mo.
5. http://www.nslij-genetics.org/gene/