当前位置: X-MOL 学术Fractals › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
STATISTICAL AND LINGUISTIC FEATURES OF DNA SEQUENCES
Fractals ( IF 3.3 ) Pub Date : 2002-07-27 , DOI: 10.1142/s0218348x95000229
S Havlin 1 , S V Buldyrev , A L Goldberger , R N Mantegna , C K Peng , M Simons , H E Stanley
Affiliation  

We present evidence supporting the idea that the DNA sequence in genes containing noncoding regions is correlated, and that the correlation is remarkably long range—indeed, base pairs thousands of base pairs distant are correlated. We do not find such a long-range correlation in the coding regions of the gene. We resolve the problem of the “non-stationarity” feature of the sequence of base pairs by applying a new algorithm called Detrended Fluctuation Analysis (DFA). We address the claim of Voss that there is no difference in the statistical properties of coding and noncoding regions of DNA by systematically applying the DFA algorithm, as well as standard FFT analysis, to all eukaryotic DNA sequences (33 301 coding and 29 453 noncoding) in the entire GenBank database. We describe a simple model to account for the presence of long-range power-law correlations which is based upon a generalization of the classic Lévy walk. Finally, we describe briefly some recent work showing that the noncoding sequences have certain statistical features in common with natural languages. Specifically, we adapt to DNA the Zipf approach to analyzing linguistic texts, and the Shannon approach to quantifying the “redundancy” of a linguistic text in terms of a measurable entropy function. We suggest that noncoding regions in plants and invertebrates may display a smaller entropy and larger redundancy than coding regions, further supporting the possibility that noncoding regions of DNA may carry biological information.

中文翻译:

DNA 序列的统计和语言特征

我们提供的证据支持这样一种观点,即含有非编码区的基因中的 DNA 序列是相关的,并且这种相关性是非常长的——事实上,数千个碱基对的碱基对是相关的。我们在基因的编码区没有发现这种长程相关性。我们通过应用一种称为去趋势波动分析 (DFA) 的新算法来解决碱基对序列的“非平稳”特征问题。我们通过系统地将 DFA 算法以及标准 FFT 分析应用于所有真核 DNA 序列(33 301 编码和 29 453 非编码)来解决 Voss 的主张,即 DNA 编码区和非编码区的统计特性没有差异在整个 GenBank 数据库中。我们描述了一个简单的模型来解释长期幂律相关性的存在,该模型基于经典 Lévy walk 的概括。最后,我们简要描述了一些最近的工作,这些工作表明非编码序列具有与自然语言相同的某些统计特征。具体来说,我们采用了 DNA Zipf 方法来分析语言文本,以及 Shannon 方法根据可测量的熵函数来量化语言文本的“冗余”。我们认为植物和无脊椎动物中的非编码区可能比编码区显示出更小的熵和更大的冗余,这进一步支持了 DNA 的非编码区可能携带生物信息的可能性。我们简要描述了一些最近的工作,这些工作表明非编码序列具有与自然语言相同的某些统计特征。具体来说,我们采用了 DNA Zipf 方法来分析语言文本,以及 Shannon 方法根据可测量的熵函数来量化语言文本的“冗余”。我们认为植物和无脊椎动物中的非编码区可能比编码区显示出更小的熵和更大的冗余,这进一步支持了 DNA 的非编码区可能携带生物信息的可能性。我们简要描述了一些最近的工作,这些工作表明非编码序列具有与自然语言相同的某些统计特征。具体来说,我们采用了 DNA Zipf 方法来分析语言文本,以及 Shannon 方法根据可测量的熵函数来量化语言文本的“冗余”。我们认为植物和无脊椎动物中的非编码区可能比编码区显示出更小的熵和更大的冗余,这进一步支持了 DNA 的非编码区可能携带生物信息的可能性。以及香农方法,根据可测量的熵函数来量化语言文本的“冗余”。我们认为植物和无脊椎动物中的非编码区可能比编码区显示出更小的熵和更大的冗余,这进一步支持了 DNA 的非编码区可能携带生物信息的可能性。以及香农方法,根据可测量的熵函数来量化语言文本的“冗余”。我们认为植物和无脊椎动物中的非编码区可能比编码区显示出更小的熵和更大的冗余,这进一步支持了 DNA 的非编码区可能携带生物信息的可能性。
更新日期:2002-07-27
down
wechat
bug