当前位置: X-MOL 学术Math. Biosci. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Predicting lncRNA-disease associations using network topological similarity based on deep mining heterogeneous networks.
Mathematical Biosciences ( IF 1.9 ) Pub Date : 2019-07-16 , DOI: 10.1016/j.mbs.2019.108229
Hui Zhang 1 , Yanchun Liang 2 , Cheng Peng 1 , Siyu Han 1 , Wei Du 1 , Ying Li 1
Affiliation  

A kind of noncoding RNA with length more than 200 nucleotides named long noncoding RNA (lncRNA) has gained considerable attention in recent decades. Many studies have confirmed that human genome contains many thousands of lncRNAs. LncRNAs play significant roles in many important biological processes, including complex disease diagnosis, prognosis, prevention and treatment. For some important diseases such as cancer, lncRNAs have been novel candidate biomarkers. However, the role of lncRNAs in human diseases is still in its infancy, and only a small part of lncRNA-disease associations have been experimentally verified. Predicting lncRNA-disease association is an important way to understand the mechanism and function of lncRNA involved in diseases to enrich the annotations of lncRNA. Therefore, it is urgent to prioritize lncRNAs potentially associated with diseases. Biological system is a highly complex heterogenous network involved different molecules. Therefore, the algorithms based on network methods have been extensively applied in information fields which can provide a quantifiable characterization for the networks characterizing multifarious biological systems. A heterogeneous network topology possessing abundant interactions between biomedical entities is rarely utilized in similarity-based methods for predicting lncRNA-disease associations based on the array of varying features of lncRNAs and diseases. DeepWalk, encoding the relations of nodes in a continuous vector space, is an extension of language model and unsupervised learning from sequence-based word to network. In this article, we present a novel lncRNA-disease association prediction method based on DeepWalk, which enhances the existing association discovery methods through a topology-based similarity measure. We integrate the heterogeneous data to construct a Linked Tripartite Network which is a heterogeneous network containing three types od nodes which generated from bioinformatics linked datasets and use DeepWalk method to extract topological structure features of the nodes in the linked tripartite network for calculating similarities. Our proposed method can be separated into the following steps: Firstly, we integrate heterogeneous data to construct a Linked Tripartite Network: containing the topological interactions of known lncRNA-disease, lncRNA-microRNA and microRNA-disease. Secondly, the topological structure features of the nodes are extracted based on DeepWalk. Thirdly, similarity scores of disease-disease pairs and lncRNA-lncRNA pairs are computed based on the topology of this network. Finally, new lncRNA and disease associations are discovered by rule-based inference method with lncRNA-lncRNA similarities. Our proposed method shows superior predictive performance for prediction of lncRNA-disease associations based on topological similarity from heterogenous network. The AUC value is used to show the performance of our method. The similarity measurement using network topology based on DeepWalk provide a novel perspective which is different from the similarity derived from sequence or structure information. Availability: All the data and codes are freely availability at: https://github.com/Pengeace/lncRNA-disease-link.

中文翻译:

使用基于深度挖掘异构网络的网络拓扑相似性来预测lncRNA-疾病关联。

近几十年来,一种长度超过200个核苷酸的非编码RNA被称为长非编码RNA(lncRNA)。许多研究已经证实,人类基因组包含数千个lncRNA。LncRNA在许多重要的生物学过程中起重要作用,包括复杂的疾病诊断,预后,预防和治疗。对于某些重要的疾病,例如癌症,lncRNAs已成为新型的候选生物标志物。但是,lncRNA在人类疾病中的作用仍处于起步阶段,并且只有一小部分的lncRNA-疾病关联已通过实验验证。预测lncRNA与疾病的联系是了解疾病中lncRNA的机制和功能以丰富lncRNA注释的重要途径。因此,迫切需要对可能与疾病相关的lncRNAs进行优先排序。生物系统是一个高度复杂的异构网络,涉及不同的分子。因此,基于网络方法的算法已广泛应用于信息领域,可以为表征多种生物系统的网络提供可量化的表征。在基于相似性的方法中,基于lncRNA和疾病的各种特征的预测基于lncRNA-疾病的关联性的方法很少使用在生物医学实体之间具有丰富相互作用的异构网络拓扑。DeepWalk是对连续向量空间中节点关系的编码,是语言模型的扩展和从基于序列的词到网络的无监督学习。在这篇文章中,我们提出了一种基于DeepWalk的新颖的lncRNA-疾病关联预测方法,该方法通过基于拓扑的相似性度量增强了现有的关联发现方法。我们整合异质数据以构建一个链接三方网络,该网络是包含从生物信息学链接数据集生成的三种类型的od节点的异构网络,并使用DeepWalk方法提取链接三方网络中节点的拓扑结构特征以计算相似度。我们提出的方法可以分为以下步骤:首先,我们整合异构数据以构建链接的三方网络:包含已知的lncRNA-疾病,lncRNA-microRNA和microRNA-疾病的拓扑相互作用。其次,基于DeepWalk提取节点的拓扑结构特征。第三,基于该网络的拓扑计算疾病-疾病对和lncRNA-lncRNA对的相似性得分。最后,通过具有lncRNA-lncRNA相似性的基于规则的推理方法发现了新的lncRNA和疾病关联。我们提出的方法在基于异源网络的拓扑相似性方面显示出对lncRNA-疾病关联的预测,具有优越的预测性能。AUC值用于显示我们方法的性能。使用基于DeepWalk的网络拓扑进行的相似度测量提供了一种新颖的视角,与从序列或结构信息中得出的相似度不同。可用性:所有数据和代码均可在以下位置免费获得:https://github.com/Pengeace/lncRNA-disease-link。第三,基于该网络的拓扑计算疾病-疾病对和lncRNA-lncRNA对的相似性得分。最后,通过具有lncRNA-lncRNA相似性的基于规则的推理方法发现了新的lncRNA和疾病关联。我们提出的方法在基于异源网络的拓扑相似性方面显示出对lncRNA-疾病关联的预测,具有优越的预测性能。AUC值用于显示我们方法的性能。使用基于DeepWalk的网络拓扑进行的相似度测量提供了一种新颖的视角,与从序列或结构信息中得出的相似度不同。可用性:所有数据和代码均可在以下位置免费获得:https://github.com/Pengeace/lncRNA-disease-link。第三,基于该网络的拓扑计算疾病-疾病对和lncRNA-lncRNA对的相似性得分。最后,通过具有lncRNA-lncRNA相似性的基于规则的推理方法发现了新的lncRNA和疾病关联。我们提出的方法在基于异构网络拓扑相似性的lncRNA-疾病关联预测中显示出优异的预测性能。AUC值用于显示我们方法的性能。使用基于DeepWalk的网络拓扑进行的相似度测量提供了一种新颖的视角,与从序列或结构信息中得出的相似度不同。可用性:所有数据和代码均可在以下位置免费获得:https://github.com/Pengeace/lncRNA-disease-link。基于该网络的拓扑计算疾病-疾病对和lncRNA-lncRNA对的相似性得分。最后,通过具有lncRNA-lncRNA相似性的基于规则的推理方法发现了新的lncRNA和疾病关联。我们提出的方法在基于异源网络的拓扑相似性方面显示出对lncRNA-疾病关联的预测,具有优越的预测性能。AUC值用于显示我们方法的性能。使用基于DeepWalk的网络拓扑进行的相似度测量提供了一种新颖的视角,与从序列或结构信息中得出的相似度不同。可用性:所有数据和代码均可在以下位置免费获得:https://github.com/Pengeace/lncRNA-disease-link。基于该网络的拓扑计算疾病-疾病对和lncRNA-lncRNA对的相似性得分。最后,通过具有lncRNA-lncRNA相似性的基于规则的推断方法发现了新的lncRNA和疾病关联。我们提出的方法在基于异类网络的拓扑相似性方面显示出对lncRNA-疾病关联的预测具有优越的预测性能。AUC值用于显示我们方法的性能。使用基于DeepWalk的网络拓扑进行的相似度测量提供了一种新颖的视角,与从序列或结构信息中得出的相似度不同。可用性:所有数据和代码均可在以下位置免费获得:https://github.com/Pengeace/lncRNA-disease-link。通过具有lncRNA-lncRNA相似性的基于规则的推断方法,发现了新的lncRNA和疾病关联。我们提出的方法在基于异源网络的拓扑相似性方面显示出对lncRNA-疾病关联的预测,具有优越的预测性能。AUC值用于显示我们方法的性能。使用基于DeepWalk的网络拓扑进行的相似度测量提供了一种新颖的视角,与从序列或结构信息中得出的相似度不同。可用性:所有数据和代码均可在以下位置免费获得:https://github.com/Pengeace/lncRNA-disease-link。通过具有lncRNA-lncRNA相似性的基于规则的推断方法,发现了新的lncRNA和疾病关联。我们提出的方法在基于异源网络的拓扑相似性方面显示出对lncRNA-疾病关联的预测,具有优越的预测性能。AUC值用于显示我们方法的性能。使用基于DeepWalk的网络拓扑进行的相似度测量提供了一种新颖的视角,与从序列或结构信息中得出的相似度不同。可用性:所有数据和代码均可在以下位置免费获得:https://github.com/Pengeace/lncRNA-disease-link。我们提出的方法在基于异源网络的拓扑相似性方面显示出对lncRNA-疾病关联的预测,具有优越的预测性能。AUC值用于显示我们方法的性能。使用基于DeepWalk的网络拓扑进行的相似度测量提供了一种新颖的视角,与从序列或结构信息中得出的相似度不同。可用性:所有数据和代码均可在以下位置免费获得:https://github.com/Pengeace/lncRNA-disease-link。我们提出的方法在基于异源网络的拓扑相似性方面显示出对lncRNA-疾病关联的预测,具有优越的预测性能。AUC值用于显示我们方法的性能。使用基于DeepWalk的网络拓扑进行的相似度测量提供了一种新颖的视角,与从序列或结构信息中得出的相似度不同。可用性:所有数据和代码均可在以下位置免费获得:https://github.com/Pengeace/lncRNA-disease-link。
更新日期:2019-11-01
down
wechat
bug