当前位置: X-MOL 学术Ann. Appl. Stat. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Identifying main effects and interactions among exposures using Gaussian processes
Annals of Applied Statistics ( IF 1.8 ) Pub Date : 2020-12-19 , DOI: 10.1214/20-aoas1363
Federico Ferrari 1 , David B Dunson 1
Affiliation  

This article is motivated by the problem of studying the joint effect of different chemical exposures on human health outcomes. This is essentially a nonparametric regression problem, with interest being focused not on a black box for prediction but instead on selection of main effects and interactions. For interpretability we decompose the expected health outcome into a linear main effect, pairwise interactions and a nonlinear deviation. Our interest is in model selection for these different components, accounting for uncertainty and addressing nonidentifiability between the linear and nonparametric components of the semiparametric model. We propose a Bayesian approach to inference, placing variable selection priors on the different components, and developing a Markov chain Monte Carlo (MCMC) algorithm. A key component of our approach is the incorporation of a heredity constraint to only include interactions in the presence of main effects, effectively reducing dimensionality of the model search. We adapt a projection approach developed in the spatial statistics literature to enforce identifiability in modeling the nonparametric component using a Gaussian process. We also employ a dimension reduction strategy to sample the nonlinear random effects that aids the mixing of the MCMC algorithm. The proposed MixSelect framework is evaluated using a simulation study, and is illustrated using data from the National Health and Nutrition Examination Survey (NHANES). Code is available on GitHub.

中文翻译:

使用高斯过程识别暴露之间的主要影响和相互作用

这篇文章的动机是研究不同化学品接触对人类健康结果的联合影响。这本质上是一个非参数回归问题,关注的重点不是用于预测的黑盒,而是主要效应和相互作用的选择。为了可解释性,我们将预期的健康结果分解为线性主效应、成对相互作用和非线性偏差。我们的兴趣在于为这些不同的组件选择模型,考虑不确定性并解决半参数模型的线性和非参数组件之间的不可识别性。我们提出了一种贝叶斯推理方法,将变量选择先验放在不同的组件上,并开发了马尔可夫链蒙特卡罗 (MCMC) 算法。我们方法的一个关键组成部分是结合遗传约束,仅包括存在主效应的相互作用,有效地降低了模型搜索的维度。我们采用空间统计文献中开发的投影方法来增强使用高斯过程建模非参数组件的可识别性。我们还采用降维策略对有助于混合 MCMC 算法的非线性随机效应进行采样。提议的 MixSelect 框架使用模拟研究进行评估,并使用来自国家健康和营养检查调查 (NHANES) 的数据进行说明。代码可在 GitHub 上获得。我们采用空间统计文献中开发的投影方法来增强使用高斯过程建模非参数组件的可识别性。我们还采用降维策略对有助于混合 MCMC 算法的非线性随机效应进行采样。提议的 MixSelect 框架使用模拟研究进行评估,并使用来自国家健康和营养检查调查 (NHANES) 的数据进行说明。代码可在 GitHub 上获得。我们采用空间统计文献中开发的投影方法,以在使用高斯过程对非参数分量进行建模时增强可识别性。我们还采用降维策略对有助于混合 MCMC 算法的非线性随机效应进行采样。提议的 MixSelect 框架使用模拟研究进行评估,并使用来自国家健康和营养检查调查 (NHANES) 的数据进行说明。代码可在 GitHub 上获得。并使用来自国家健康和营养检查调查 (NHANES) 的数据进行说明。代码可在 GitHub 上获得。并使用来自国家健康和营养检查调查 (NHANES) 的数据进行说明。代码可在 GitHub 上获得。
更新日期:2020-12-20
down
wechat
bug