当前位置: X-MOL 学术J. Chemometr. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Separating common (global and local) and distinct variation in multiple mixed types data sets
Journal of Chemometrics ( IF 1.9 ) Pub Date : 2019-12-10 , DOI: 10.1002/cem.3197
Yipeng Song 1 , Johan A. Westerhuis 1 , Age K. Smilde 1
Affiliation  

Multiple sets of measurements on the same objects obtained from different platforms may reflect partially complementary information of the studied system. The integrative analysis of such data sets not only provides us with the opportunity of a deeper understanding of the studied system but also introduces some new statistical challenges. First, the separation of information that is common across all or some of the data sets and the information that is specific to each data set is problematic. Furthermore, these data sets are often a mix of quantitative and discrete (binary or categorical) data types, while commonly used data fusion methods require all data sets to be quantitative. In this paper, we propose an exponential family simultaneous component analysis (ESCA) model to tackle the potential mixed data types problem of multiple data sets. In addition, a structured sparse pattern of the loading matrix is induced through a nearly unbiased group concave penalty to disentangle the global, local common, and distinct information of the multiple data sets. A Majorization‐Minimization–based algorithm is derived to fit the proposed model. Analytic solutions are derived for updating all the parameters of the model in each iteration, and the algorithm will decrease the objective function in each iteration monotonically. For model selection, a missing value–based cross validation procedure is implemented. The advantages of the proposed method in comparison with other approaches are assessed using comprehensive simulations as well as the analysis of real data from a chronic lymphocytic leukaemia (CLL) study.

中文翻译:

分离多种混合类型数据集中的常见(全球和本地)和不同的变化

从不同平台获得的相同对象的多组测量可能反映了所研究系统的部分互补信息。对此类数据集的综合分析不仅为我们提供了深入了解所研究系统的机会,而且还引入了一些新的统计挑战。首先,将所有或部分数据集共有的信息与特定于每个数据集的信息分开是有问题的。此外,这些数据集通常是定量和离散(二进制或分类)数据类型的混合,而常用的数据融合方法要求所有数据集都是定量的。在本文中,我们提出了一种指数族同时分量分析(ESCA)模型来解决多个数据集的潜在混合数据类型问题。此外,加载矩阵的结构化稀疏模式是通过近乎无偏的群凹惩罚引入的,以解开多个数据集的全局、局部公共和不同信息。推导出基于专业化-最小化的算法来拟合所提出的模型。每次迭代更新模型的所有参数得到解析解,算法将在每次迭代中单调递减目标函数。对于模型选择,实施了基于缺失值的交叉验证程序。使用综合模拟以及对来自慢性淋巴细胞白血病 (CLL) 研究的真实数据的分析来评估所提出的方法与其他方法相比的优势。加载矩阵的结构化稀疏模式是通过近乎无偏的组凹惩罚引入的,以解开多个数据集的全局、局部公共和不同信息。推导出基于专业化-最小化的算法来拟合所提出的模型。每次迭代更新模型的所有参数得到解析解,算法将在每次迭代中单调递减目标函数。对于模型选择,实施了基于缺失值的交叉验证程序。使用综合模拟以及对来自慢性淋巴细胞白血病 (CLL) 研究的真实数据的分析来评估所提出的方法与其他方法相比的优势。加载矩阵的结构化稀疏模式是通过近乎无偏的组凹惩罚引入的,以解开多个数据集的全局、局部公共和不同信息。推导出基于专业化-最小化的算法来拟合所提出的模型。每次迭代更新模型的所有参数得到解析解,算法将在每次迭代中单调递减目标函数。对于模型选择,实施了基于缺失值的交叉验证程序。使用综合模拟以及对来自慢性淋巴细胞白血病 (CLL) 研究的真实数据的分析来评估所提出的方法与其他方法相比的优势。和多个数据集的不同信息。推导出基于专业化-最小化的算法来拟合所提出的模型。每次迭代更新模型的所有参数得到解析解,算法将在每次迭代中单调递减目标函数。对于模型选择,实施了基于缺失值的交叉验证程序。使用综合模拟以及对来自慢性淋巴细胞白血病 (CLL) 研究的真实数据的分析来评估所提出的方法与其他方法相比的优势。和多个数据集的不同信息。推导出基于专业化-最小化的算法来拟合所提出的模型。每次迭代更新模型的所有参数得到解析解,算法将在每次迭代中单调递减目标函数。对于模型选择,实施了基于缺失值的交叉验证程序。使用综合模拟以及对来自慢性淋巴细胞白血病 (CLL) 研究的真实数据的分析来评估所提出的方法与其他方法相比的优势。并且算法会在每次迭代中单调递减目标函数。对于模型选择,实施了基于缺失值的交叉验证程序。使用综合模拟以及对来自慢性淋巴细胞白血病 (CLL) 研究的真实数据的分析来评估所提出的方法与其他方法相比的优势。并且算法会在每次迭代中单调递减目标函数。对于模型选择,实施了基于缺失值的交叉验证程序。使用综合模拟以及对来自慢性淋巴细胞白血病 (CLL) 研究的真实数据的分析来评估所提出的方法与其他方法相比的优势。
更新日期:2019-12-10
down
wechat
bug