当前位置: X-MOL 学术J. Classif. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Variable Selection for Mixed Data Clustering: Application in Human Population Genomics
Journal of Classification ( IF 2 ) Pub Date : 2019-03-30 , DOI: 10.1007/s00357-018-9301-y
Matthieu Marbac , Mohammed Sedki , Tienne Patin

Model-based clustering of human population genomic data, composed of 1,318 individuals arisen from western Central Africa and 160,470 markers, is considered. This challenging analysis leads us to develop a new methodology for variable selection in clustering. To explain the differences between subpopulations and to increase the accuracy of the estimates, variable selection is done simultaneously to clustering. We proposed two approaches for selecting variables when clustering is managed by the latent class model (i.e., mixture considering independence within components). The first method simultaneously performs model selection and parameter inference. It optimizes the Bayesian Information Criterion with a modified version of the standard expectation–maximization algorithm. The second method performs model selection without requiring parameter inference by maximizing the Maximum Integrated Complete-data Likelihood criterion. Although the application considers categorical data, the proposed methods are introduced in the general context of mixed data (data composed of different types of features). As the first step, the interest of both proposed methods is shown on simulated and several benchmark real data. Then, we apply the clustering method to the human population genomic data which permits to detect the most discriminative genetic markers. The proposed method implemented in the R package VarSelLCM is available on CRAN .

中文翻译:

混合数据聚类的变量选择:在人口基因组学中的应用

考虑了基于模型的人群基因组数据聚类,该数据由来自中非西部的 1,318 个个体和 160,470 个标记组成。这种具有挑战性的分析使我们开发了一种新的聚类变量选择方法。为了解释亚群之间的差异并提高估计的准确性,变量选择与聚类同时进行。当聚类由潜在类模型管理时,我们提出了两种选择变量的方法(即,考虑组件内独立性的混合)。第一种方法同时进行模型选择和参数推断。它使用标准期望最大化算法的修改版本优化贝叶斯信息准则。第二种方法通过最大化最大综合完整数据似然标准来执行模型选择,而无需参数推断。尽管该应用程序考虑了分类数据,但在混合数据(由不同类型特征组成的数据)的一般上下文中引入了所提出的方法。作为第一步,在模拟和几个基准真实数据上显示了两种所提出方法的兴趣。然后,我们将聚类方法应用于人口基因组数据,这允许检测最具辨别力的遗传标记。在 R 包 VarSelLCM 中实现的建议方法可在 CRAN 上使用。所提出的方法是在混合数据(由不同类型特征组成的数据)的一般上下文中引入的。作为第一步,在模拟和几个基准真实数据上显示了两种所提出方法的兴趣。然后,我们将聚类方法应用于人口基因组数据,这允许检测最具辨别力的遗传标记。在 R 包 VarSelLCM 中实现的建议方法可在 CRAN 上使用。所提出的方法是在混合数据(由不同类型特征组成的数据)的一般上下文中引入的。作为第一步,在模拟和几个基准真实数据上显示了两种所提出方法的兴趣。然后,我们将聚类方法应用于人口基因组数据,这允许检测最具辨别力的遗传标记。在 R 包 VarSelLCM 中实现的建议方法可在 CRAN 上使用。
更新日期:2019-03-30
down
wechat
bug