当前位置: X-MOL 学术BMC Bioinform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
PCA via joint graph Laplacian and sparse constraint: Identification of differentially expressed genes and sample clustering on gene expression data.
BMC Bioinformatics ( IF 2.9 ) Pub Date : 2019-12-30 , DOI: 10.1186/s12859-019-3229-z
Chun-Mei Feng 1, 2 , Yong Xu 1, 3 , Mi-Xiao Hou 1 , Ling-Yun Dai 2 , Jun-Liang Shang 2
Affiliation  

BACKGROUND In recent years, identification of differentially expressed genes and sample clustering have become hot topics in bioinformatics. Principal Component Analysis (PCA) is a widely used method in gene expression data. However, it has two limitations: first, the geometric structure hidden in data, e.g., pair-wise distance between data points, have not been explored. This information can facilitate sample clustering; second, the Principal Components (PCs) determined by PCA are dense, leading to hard interpretation. However, only a few of genes are related to the cancer. It is of great significance for the early diagnosis and treatment of cancer to identify a handful of the differentially expressed genes and find new cancer biomarkers. RESULTS In this study, a new method gLSPCA is proposed to integrate both graph Laplacian and sparse constraint into PCA. gLSPCA on the one hand improves the clustering accuracy by exploring the internal geometric structure of the data, on the other hand identifies differentially expressed genes by imposing a sparsity constraint on the PCs. CONCLUSIONS Experiments of gLSPCA and its comparison with existing methods, including Z-SPCA, GPower, PathSPCA, SPCArt, gLPCA, are performed on real datasets of both pancreatic cancer (PAAD) and head & neck squamous carcinoma (HNSC). The results demonstrate that gLSPCA is effective in identifying differentially expressed genes and sample clustering. In addition, the applications of gLSPCA on these datasets provide several new clues for the exploration of causative factors of PAAD and HNSC.

中文翻译:

通过联合图拉普拉斯算子和稀疏约束进行PCA:识别差异表达的基因并根据基因表达数据进行样本聚类。

背景技术近年来,差异表达基因的鉴定和样品聚类已成为生物信息学中的热门话题。主成分分析(PCA)是基因表达数据中广泛使用的方法。但是,它有两个局限性:首先,尚未探究隐藏在数据中的几何结构,例如,数据点之间的成对距离。该信息可以促进样本聚类;其次,由PCA确定的主成分(PC)是密集的,导致难以解释。但是,只有少数基因与癌症有关。鉴定少数差异表达的基因并寻找新的癌症生物标志物对于癌症的早期诊断和治疗具有重要意义。结果在这项研究中,提出了一种将图拉普拉斯图和稀疏约束都集成到PCA中的gLSPCA新方法。一方面,gLSPCA通过探索数据的内部几何结构来提高聚类的准确性,另一方面,通过在PC上施加稀疏约束来识别差异表达的基因。结论gLSPCA的实验及其与现有方法(包括Z-SPCA,GPower,PathSPCA,SPCArt,gLPCA)的比较是在胰腺癌(PAAD)和头颈鳞癌(HNSC)的真实数据集上进行的。结果表明,gLSPCA在鉴定差异表达的基因和样品聚类中是有效的。此外,gLSPCA在这些数据集上的应用为探索PAAD和HNSC的致病因素提供了一些新的线索。一方面,gLSPCA通过探索数据的内部几何结构来提高聚类的准确性,另一方面,通过在PC上施加稀疏约束来识别差异表达的基因。结论gLSPCA的实验及其与现有方法(包括Z-SPCA,GPower,PathSPCA,SPCArt,gLPCA)的比较是在胰腺癌(PAAD)和头颈鳞癌(HNSC)的真实数据集上进行的。结果表明,gLSPCA在鉴定差异表达的基因和样品聚类中是有效的。此外,gLSPCA在这些数据集上的应用为探索PAAD和HNSC的致病因素提供了一些新的线索。一方面,gLSPCA通过探索数据的内部几何结构来提高聚类的准确性,另一方面,通过在PC上施加稀疏约束来识别差异表达的基因。结论gLSPCA的实验及其与现有方法(包括Z-SPCA,GPower,PathSPCA,SPCArt,gLPCA)的比较是在胰腺癌(PAAD)和头颈鳞癌(HNSC)的真实数据集上进行的。结果表明,gLSPCA在鉴定差异表达的基因和样品聚类中是有效的。此外,gLSPCA在这些数据集上的应用为探索PAAD和HNSC的致病因素提供了一些新的线索。另一方面,通过在PC上施加稀疏性约束来鉴定差异表达的基因。结论gLSPCA的实验及其与现有方法(包括Z-SPCA,GPower,PathSPCA,SPCArt,gLPCA)的比较是在胰腺癌(PAAD)和头颈鳞癌(HNSC)的真实数据集上进行的。结果表明,gLSPCA在鉴定差异表达的基因和样品聚类中是有效的。此外,gLSPCA在这些数据集上的应用为探索PAAD和HNSC的致病因素提供了一些新的线索。另一方面,通过在PC上施加稀疏性约束来鉴定差异表达的基因。结论gLSPCA的实验及其与现有方法(包括Z-SPCA,GPower,PathSPCA,SPCArt,gLPCA)的比较是在胰腺癌(PAAD)和头颈鳞癌(HNSC)的真实数据集上进行的。结果表明,gLSPCA在鉴定差异表达的基因和样品聚类中是有效的。此外,gLSPCA在这些数据集上的应用为探索PAAD和HNSC的致病因素提供了一些新的线索。在胰腺癌(PAAD)和头颈部鳞状细胞癌(HNSC)的真实数据集上执行。结果表明,gLSPCA在鉴定差异表达的基因和样品聚类中是有效的。此外,gLSPCA在这些数据集上的应用为探索PAAD和HNSC的致病因素提供了一些新的线索。在胰腺癌(PAAD)和头颈部鳞状细胞癌(HNSC)的真实数据集上执行。结果表明,gLSPCA在鉴定差异表达的基因和样品聚类中是有效的。此外,gLSPCA在这些数据集上的应用为探索PAAD和HNSC的致病因素提供了一些新的线索。
更新日期:2019-12-30
down
wechat
bug