当前位置: X-MOL 学术Stat. Anal. Data Min. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A tree-based gene–environment interaction analysis with rare features
Statistical Analysis and Data Mining ( IF 1.3 ) Pub Date : 2022-03-01 , DOI: 10.1002/sam.11578
Mengque Liu 1 , Qingzhao Zhang 2 , Shuangge Ma 3
Affiliation  

Gene–environment (G-E) interaction analysis plays a critical role in understanding and modeling complex diseases. Compared to main-effect-only analysis, it is more seriously challenged by higher dimensionality, weaker signals, and the unique “main effects, interactions” variable selection hierarchy. In joint G-E interaction analysis under which a large number of G factors are analyzed in a single model, effort tailored to rare features (e.g., SNPs with low minor allele frequencies) has been limited. Existing investigations on rare features have been mostly focused on marginal analysis, where various data aggregation techniques have been developed, and hypothesis testings have been conducted to identify significant aggregated features. However, such techniques cannot be extended to joint G-E interaction analysis. In this study, building on a very recent tree-based data aggregation technique, which has been developed for main-effect-only analysis, we develop a new G-E interaction analysis approach tailored to rare features. The adopted data aggregation technique allows for more efficient information borrowing from neighboring rare features. Similar to some existing state-of-the-art ones, the proposed approach adopts penalization for variable selection, regularized estimation, and respect of the variable selection hierarchy. Simulation shows that it has more accurate identification of important interactions and main effects than several competing alternatives. In the analysis of NFBC1966 study, the proposed approach leads to findings different from the alternatives and with satisfactory prediction and stability performance.

中文翻译:

具有稀有特征的基于树的基因-环境相互作用分析

基因-环境 (GE) 相互作用分析在理解和模拟复杂疾病方面发挥着关键作用。与仅主效应分析相比,它受到更高维度、更弱信号和独特的“主效应、交互作用”变量选择层次结构的挑战。在联合 GE 相互作用分析中,在单个模型中分析大量 G 因子,针对稀有特征(例如,具有低次要等位基因频率的 SNP)的努力受到限制。现有对稀有特征的研究主要集中在边际分析上,其中开发了各种数据聚合技术,并进行了假设检验以识别重要的聚合特征。然而,这些技术不能扩展到联合 GE 交互分析。在这项研究中,基于最近的基于树的数据聚合技术,该技术已开发用于仅主效应分析,我们开发了一种针对稀有特征量身定制的新 GE 交互分析方法。采用的数据聚合技术允许更有效地从相邻的稀有特征中借用信息。与一些现有的最先进的方法类似,所提出的方法采用惩罚变量选择、正则化估计和尊重变量选择层次结构。模拟表明,它比几个竞争替代方案更准确地识别重要的相互作用和主要影响。在对 NFBC1966 研究的分析中,所提出的方法导致了与替代方案不同的结果,并且具有令人满意的预测和稳定性性能。专为仅主效应分析而开发的,我们开发了一种针对稀有特征量身定制的新 GE 交互分析方法。采用的数据聚合技术允许更有效地从相邻的稀有特征中借用信息。与一些现有的最先进的方法类似,所提出的方法采用惩罚变量选择、正则化估计和尊重变量选择层次结构。模拟表明,它比几个竞争替代方案更准确地识别重要的相互作用和主要影响。在对 NFBC1966 研究的分析中,所提出的方法导致了与替代方案不同的结果,并且具有令人满意的预测和稳定性性能。专为仅主效应分析而开发的,我们开发了一种针对稀有特征量身定制的新 GE 交互分析方法。采用的数据聚合技术允许更有效地从相邻的稀有特征中借用信息。与一些现有的最先进的方法类似,所提出的方法采用惩罚变量选择、正则化估计和尊重变量选择层次结构。模拟表明,它比几个竞争替代方案更准确地识别重要的相互作用和主要影响。在对 NFBC1966 研究的分析中,所提出的方法导致了与替代方案不同的结果,并且具有令人满意的预测和稳定性性能。我们开发了一种针对稀有特征量身定制的新 GE 交互分析方法。采用的数据聚合技术允许更有效地从相邻的稀有特征中借用信息。与一些现有的最先进的方法类似,所提出的方法采用惩罚变量选择、正则化估计和尊重变量选择层次结构。模拟表明,它比几个竞争替代方案更准确地识别重要的相互作用和主要影响。在对 NFBC1966 研究的分析中,所提出的方法导致了与替代方案不同的结果,并且具有令人满意的预测和稳定性性能。我们开发了一种针对稀有特征量身定制的新 GE 交互分析方法。采用的数据聚合技术允许更有效地从相邻的稀有特征中借用信息。与一些现有的最先进的方法类似,所提出的方法采用惩罚变量选择、正则化估计和尊重变量选择层次结构。模拟表明,它比几个竞争替代方案更准确地识别重要的相互作用和主要影响。在对 NFBC1966 研究的分析中,所提出的方法导致了与替代方案不同的结果,并且具有令人满意的预测和稳定性性能。与一些现有的最先进的方法类似,所提出的方法采用惩罚变量选择、正则化估计和尊重变量选择层次结构。模拟表明,它比几个竞争替代方案更准确地识别重要的相互作用和主要影响。在对 NFBC1966 研究的分析中,所提出的方法导致了与替代方案不同的结果,并且具有令人满意的预测和稳定性性能。与一些现有的最先进的方法类似,所提出的方法采用惩罚变量选择、正则化估计和尊重变量选择层次结构。模拟表明,它比几个竞争替代方案更准确地识别重要的相互作用和主要影响。在对 NFBC1966 研究的分析中,所提出的方法导致了与替代方案不同的结果,并且具有令人满意的预测和稳定性性能。
更新日期:2022-03-01
down
wechat
bug