当前位置: X-MOL 学术Biometrika › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Discontinuous Hamiltonian Monte Carlo for discrete parameters and discontinuous likelihoods
Biometrika ( IF 2.4 ) Pub Date : 2020-03-07 , DOI: 10.1093/biomet/asz083
Akihiko Nishimura 1 , David B Dunson 2 , Jianfeng Lu 3
Affiliation  

In a modern observational study based on healthcare databases, the number of observations and of predictors typically range in the order of $10^5$ ~ $10^6$ and of $10^4$ ~ $10^5$. Despite the large sample size, data rarely provide sufficient information to reliably estimate such a large number of parameters. Sparse regression techniques provide potential solutions, one notable approach being Bayesian methods based on shrinkage priors. In the "large $n$ & large $p$" setting, however, posterior computation encounters a major bottleneck at repeated sampling from a high-dimensional Gaussian distribution, whose precision matrix $\Phi$ is expensive to compute and factorize. In this article, we present a novel algorithm to speed up this bottleneck based on the following observation: we can cheaply generate a random vector $b$ such that the solution to the linear system $\Phi \beta = b$ has the desired Gaussian distribution. We can then solve the linear system by the conjugate gradient (CG) algorithm through matrix-vector multiplications by $\Phi$, without ever explicitly inverting $\Phi$. We accelerate the convergence of CG in sparse regression applications by developing a theory of prior-preconditioning. We apply our algorithm to a clinically relevant large-scale observational study with $n$ = 72,489 and $p$ = 22,175, designed to assess the relative risk of adverse events from two alternative blood anti-coagulants. Our algorithm demonstrates an order of magnitude speed-up in the posterior computation.

中文翻译:

离散参数和不连续似然的不连续哈密顿蒙特卡罗

在基于医疗保健数据库的现代观察研究中,观察和预测变量的数量通常在 $10^5$ ~ $10^6$ 和 $10^4$ ~ $10^5$ 的范围内。尽管样本量很大,但数据很少提供足够的信息来可靠地估计如此大量的参数。稀疏回归技术提供了潜在的解决方案,一种值得注意的方法是基于收缩先验的贝叶斯方法。然而,在“大 $n$ 和大 $p$”设置中,后验计算在从高维高斯分布重复采样时遇到了主要瓶颈,其精度矩阵 $\Phi$ 的计算和分解成本很高。在本文中,我们基于以下观察提出了一种新算法来加速这个瓶颈:我们可以廉价地生成一个随机向量 $b$,使得线性系统 $\Phi\beta = b$ 的解具有所需的高斯分布。然后我们可以通过共轭梯度 (CG) 算法通过矩阵向量乘以 $\Phi$ 来求解线性系统,而无需显式反转 $\Phi$。我们通过开发先验预处理理论来加速 CG 在稀疏回归应用中的收敛。我们将我们的算法应用于临床相关的大规模观察性研究,其中 $n$ = 72,489 和 $p$ = 22,175,旨在评估两种替代血液抗凝剂的不良事件的相对风险。我们的算法在后验计算中展示了一个数量级的加速。然后我们可以通过共轭梯度 (CG) 算法通过矩阵向量乘以 $\Phi$ 来求解线性系统,而无需显式反转 $\Phi$。我们通过开发先验预处理理论来加速 CG 在稀疏回归应用中的收敛。我们将我们的算法应用于临床相关的大规模观察性研究,其中 $n$ = 72,489 和 $p$ = 22,175,旨在评估两种替代血液抗凝剂的不良事件的相对风险。我们的算法在后验计算中展示了一个数量级的加速。然后我们可以通过共轭梯度 (CG) 算法通过矩阵向量乘以 $\Phi$ 来求解线性系统,而无需显式反转 $\Phi$。我们通过开发先验预处理理论来加速 CG 在稀疏回归应用中的收敛。我们将我们的算法应用于临床相关的大规模观察性研究,其中 $n$ = 72,489 和 $p$ = 22,175,旨在评估两种替代血液抗凝剂的不良事件的相对风险。我们的算法在后验计算中展示了一个数量级的加速。我们将我们的算法应用于临床相关的大规模观察性研究,其中 $n$ = 72,489 和 $p$ = 22,175,旨在评估两种替代血液抗凝剂的不良事件的相对风险。我们的算法在后验计算中展示了一个数量级的加速。我们将我们的算法应用于临床相关的大规模观察性研究,其中 $n$ = 72,489 和 $p$ = 22,175,旨在评估两种替代血液抗凝剂的不良事件的相对风险。我们的算法在后验计算中展示了一个数量级的加速。
更新日期:2020-03-07
down
wechat
bug