当前位置: X-MOL 学术IEEE/ACM Trans. Comput. Biol. Bioinform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A New Weighted Imputed Neighborhood-Regularized Tri-Factorization One-Class Collaborative Filtering Algorithm: Application to Target Gene Prediction of Transcription Factors
IEEE/ACM Transactions on Computational Biology and Bioinformatics ( IF 4.5 ) Pub Date : 2020-01-27 , DOI: 10.1109/tcbb.2020.2968442
Hansaim Lim , Lei Xie

Identifying target genes of transcription factors (TFs) is crucial to understand transcriptional regulation. However, our understanding of genome-wide TF targeting profile is limited due to the cost of large-scale experiments and intrinsic complexity of gene regulation. Thus, computational prediction methods are useful to predict unobserved TF-gene associations. Here, we develop a new Weighted Imputed Neighborhood-regularized Tri-Factorization one-class collaborative filtering algorithm, WINTF. It predicts unobserved target genes for TFs using known but noisy, incomplete, and biased TF-gene associations and protein-protein interaction networks. Our benchmark study shows that WINTF significantly outperforms its counterpart matrix factorization-based algorithms and tri-factorization methods that do not include weight, imputation, and neighbor-regularization, for TF-gene association prediction. When evaluated by independent datasets, accuracy is 37.8 percent on the top 495 predicted associations, an enrichment factor of 4.19 compared with random guess. Furthermore, many predicted novel associations are supported by literature evidence. Although we only use canonical TF-gene interaction data, WINTF can directly be applied to tissue-specific data when available. Thus, WINTF provides a potentially useful framework to integrate multiple omics data for further improvement of TF-gene prediction and applications to other sparse and noisy biological data. The benchmark dataset and source code are freely available at https://github.com/XieResearchGroup/WINTF .

中文翻译:

一种新的加权估计邻域-正则化三因子化一类协同过滤算法:在转录因子的目标基因预测中的应用

识别转录因子 (TF) 的靶基因对于理解转录调控至关重要。然而,由于大规模实验的成本和基因调控的内在复杂性,我们对全基因组 TF 靶向谱的理解是有限的。因此,计算预测方法可用于预测未观察到的 TF 基因关联。在这里,我们开发了一种新的加权估算邻域正则化三因子化一类协同过滤算法 WINTF。它使用已知但嘈杂、不完整和有偏见的 TF 基因关联和蛋白质-蛋白质相互作用网络来预测未观察到的 TF 靶基因。我们的基准研究表明,WINTF 显着优于其对应的基于矩阵分解的算法和不包括权重、插补、和邻居正则化,用于 TF 基因关联预测。当由独立数据集评估时,前 495 个预测关联的准确率为 37.8%,与随机猜测相比,富集因子为 4.19。此外,许多预测的新关联得到了文献证据的支持。虽然我们只使用规范的 TF 基因相互作用数据,但 WINTF 可以在可用时直接应用于组织特异性数据。因此,WINTF 提供了一个潜在有用的框架来整合多个组学数据,以进一步改进 TF 基因预测和应用到其他稀疏和嘈杂的生物数据。基准数据集和源代码可在以下网址免费获得 与随机猜测相比,富集因子为 4.19。此外,许多预测的新关联得到了文献证据的支持。虽然我们只使用规范的 TF 基因相互作用数据,但 WINTF 可以在可用时直接应用于组织特异性数据。因此,WINTF 提供了一个潜在有用的框架来整合多个组学数据,以进一步改进 TF 基因预测和应用到其他稀疏和嘈杂的生物数据。基准数据集和源代码可在以下网址免费获得 与随机猜测相比,富集因子为 4.19。此外,许多预测的新关联得到了文献证据的支持。虽然我们只使用规范的 TF 基因相互作用数据,但 WINTF 可以在可用时直接应用于组织特异性数据。因此,WINTF 提供了一个潜在有用的框架来整合多个组学数据,以进一步改进 TF 基因预测和应用到其他稀疏和嘈杂的生物数据。基准数据集和源代码可在以下网址免费获得 WINTF 提供了一个潜在有用的框架来整合多个组学数据,以进一步改进 TF 基因预测和应用到其他稀疏和嘈杂的生物数据。基准数据集和源代码可在以下网址免费获得 WINTF 提供了一个潜在有用的框架来整合多个组学数据,以进一步改进 TF 基因预测和应用到其他稀疏和嘈杂的生物数据。基准数据集和源代码可在以下网址免费获得https://github.com/XieResearchGroup/WINTF .
更新日期:2020-01-27
down
wechat
bug