当前位置: X-MOL 学术arXiv.cs.DC › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Feature set optimization by clustering, univariate association, Deep & Machine learning omics Wide Association Study (DMWAS) for Biomarkers discovery as tested on GTEx pilot dataset for death due to heart attack
arXiv - CS - Distributed, Parallel, and Cluster Computing Pub Date : 2021-02-24 , DOI: arxiv-2102.13470
Abhishek Narain Singh

Univariate and multivariate methods for association of the genom-ic variations with the end-or-endo phenotype have been widely used for genome wide association studies. In addition to encoding the SNPs, we advocate usage of clustering as a novel method to encode the structural variations, SVs, in genomes, such as the deletions and insertions polymorphism (DIPs), Copy Number Variations (CNVs), translocation, inversion, etc., that can be used as an independent fea-ture variable value for downstream computation by artificial intelli-gence methods to predict the endo-or-end phenotype. We introduce a clustering based encoding scheme for structural variations and om-ics based analysis. We conducted a complete all genomic variants association with the phenotype using deep learning and other ma-chine learning techniques, though other methods such as genetic al-gorithm can also be applied. Applying this encoding of SVs and one-hot encoding of SNPs on GTEx V7 pilot DNA variation dataset, we were able to get high accuracy using various methods of DMWAS, and particularly found logistic regression to work the best for death due to heart-attack (MHHRTATT) phenotype. The genom-ic variants acting as feature sets were then arranged in descending order of power of impact on the disease or trait phenotype, which we call optimization and that also uses top univariate association into account. Variant Id P1_M_061510_3_402_P at chromosome 3 & position 192063195 was found to be most highly associated to MHHRTATT. We present here the top ten optimized genomic va-riant feature set for the MHHRTATT phenotypic cause of death.

中文翻译:

通过聚类,单变量关联,深度和机器学习omics广泛关联研究(DMWAS)进行的功能集优化,以发现生物标志物,已在GTEx飞行员数据集上测试了因心脏病发作而死亡

基因组变异与末端或末端表型的关联的单变量和多变量方法已广泛用于全基因组关联研究。除了编码SNP外,我们提倡使用聚类作为一种新的方法来编码基因组中的结构变异,SV,例如缺失和插入多态性(DIP),拷贝数变异(CNV),易位,倒位等可以用作独立特征变量值,以便通过人工智能方法进行下游计算,以预测内端或内端表型。我们介绍了一种基于聚类的编码方案,用于结构变化和基于om-ics的分析。我们使用深度学习和其他机器学习技术对表型进行了完整的所有基因组变体关联,尽管也可以使用其他方法,例如遗传算法。通过在GTEx V7飞行员DNA变异数据集上使用这种SV编码和SNP单编码,我们能够使用DMWAS的各种方法获得高精度,特别是发现Logistic回归最适合因心脏病发作而死亡( MHHRTATT)表型。然后,将作为特征集的基因组变体以对疾病或性状表型的影响力的降序排列,我们称其为最优化,并且还考虑了顶级单变量关联。发现在3号染色体和位置192063195处的变异ID P1_M_061510_3_402_P与MHHRTATT高度相关。我们在这里介绍了MHHRTATT表型死因的十大优化的基因组变异特征集。通过在GTEx V7飞行员DNA变异数据集上使用这种SV编码和SNP单编码,我们能够使用DMWAS的各种方法获得高精度,特别是发现Logistic回归最适合因心脏病发作而死亡( MHHRTATT)表型。然后,将作为特征集的基因组变体以对疾病或性状表型的影响力的降序排列,我们称其为最优化,并且还考虑了顶级单变量关联。发现3号染色体和位置192063195的变体ID P1_M_061510_3_402_P与MHHRTATT高度相关。我们在这里介绍了MHHRTATT表型死亡原因的前十个优化的基因组变异特征集。通过在GTEx V7飞行员DNA变异数据集上使用这种SV编码和SNP单编码,我们能够使用DMWAS的各种方法获得高精度,特别是发现Logistic回归最适合因心脏病发作而死亡( MHHRTATT)表型。然后,将作为特征集的基因组变异体按照对疾病或性状表型的影响力从高到低的顺序排列,我们称其为优化,并且也考虑了顶级单变量关联。发现在3号染色体和位置192063195处的变异ID P1_M_061510_3_402_P与MHHRTATT高度相关。我们在这里介绍了MHHRTATT表型死亡原因的前十个优化的基因组变异特征集。我们能够使用各种DMWAS方法获得高精度,特别是发现logistic回归最适合因心脏病发作(MHHRTATT)表型而死亡。然后,将作为特征集的基因组变体以对疾病或性状表型的影响力的降序排列,我们称其为最优化,并且还考虑了顶级单变量关联。发现在3号染色体和位置192063195处的变异ID P1_M_061510_3_402_P与MHHRTATT高度相关。我们在这里介绍了MHHRTATT表型死因的十大优化的基因组变异特征集。我们能够使用各种DMWAS方法获得高精度,特别是发现logistic回归最适合因心脏病发作(MHHRTATT)表型而死亡。然后,将作为特征集的基因组变体以对疾病或性状表型的影响力的降序排列,我们称其为最优化,并且还考虑了顶级单变量关联。发现在3号染色体和位置192063195处的变异ID P1_M_061510_3_402_P与MHHRTATT高度相关。我们在这里介绍了MHHRTATT表型死亡原因的前十个优化的基因组变异特征集。然后,将作为特征集的基因组变体以对疾病或性状表型的影响力的降序排列,我们称其为最优化,并且还考虑了顶级单变量关联。发现在3号染色体和位置192063195处的变异ID P1_M_061510_3_402_P与MHHRTATT高度相关。我们在这里介绍了MHHRTATT表型死亡原因的前十个优化的基因组变异特征集。然后,将作为特征集的基因组变体以对疾病或性状表型的影响力的降序排列,我们称其为最优化,并且还考虑了顶级单变量关联。发现在3号染色体和位置192063195处的变异ID P1_M_061510_3_402_P与MHHRTATT高度相关。我们在这里介绍了MHHRTATT表型死亡原因的前十个优化的基因组变异特征集。
更新日期:2021-03-01
down
wechat
bug