当前位置: X-MOL 学术Stat. Sin. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
REMI: REGRESSION WITH MARGINAL INFORMATION AND ITS APPLICATION IN GENOME-WIDE ASSOCIATION STUDIES
Statistica Sinica ( IF 1.4 ) Pub Date : 2021-01-01 , DOI: 10.5705/ss.202019.0182
Jian Huang , Yuling Jiao , Jin Liu , Can Yang

In this study, we consider the problem of variable selection and estimation in high-dimensional linear regression models when the complete data are not accessible, but only certain marginal information or summary statistics are available. This problem is motivated from the Genome-wide association studies (GWAS) that have been widely used to identify risk variants underlying complex human traits/diseases. With a large number of completed GWAS, statistical methods using summary statistics become more and more important because of restricted accessibility to individual-level data sets. Theoretically guaranteed methods are highly demanding to advance the statistical inference with a large amount of available marginal information. Here we propose an $\ell_1$ penalized approach, REMI, to estimate high dimensional regression coefficients with marginal information and external reference samples. We establish an upper bound on the error of the REMI estimator, which has the same order as that of the minimax error bound of Lasso with complete individual-level data. In particular, when marginal information is obtained from a large number of samples together with a small number of reference samples, REMI yields good estimation and prediction results, and outperforms the Lasso because the sample size of accessible individual-level data can be limited. Through simulation studies and real data analysis of the NFBC1966 GWAS data set, we demonstrate that REMI can be widely applicable. The developed R package and the codes to reproduce all the results are available at this https URL

中文翻译:

REMI:边缘信息回归及其在全基因组关联研究中的应用

在这项研究中,我们考虑了当无法获得完整数据而只有某些边际信息或汇总统计数据可用时,高维线性回归模型中的变量选择和估计问题。这个问题源于全基因组关联研究 (GWAS),该研究已被广泛用于识别复杂人类特征/疾病的风险变异。随着大量已完成的 GWAS,由于个人层面数据集的可访问性受到限制,使用汇总统计的统计方法变得越来越重要。理论上有保证的方法对利用大量可用边际信息推进统计推断的要求很高。这里我们提出了一个 $\ell_1$ 惩罚方法,REMI,用边际信息和外部参考样本估计高维回归系数。我们建立了 REMI 估计器误差的上限,该上限与具有完整个体级数据的 Lasso 的最小最大误差界的阶数相同。特别是,当从大量样本和少量参考样本中获得边际信息时,REMI 会产生良好的估计和预测结果,并且优于 Lasso,因为可访问的个体级别数据的样本量可能有限。通过对 NFBC1966 GWAS 数据集的模拟研究和真实数据分析,我们证明了 REMI 可以广泛适用。开发的 R 包和重现所有结果的代码可在此 https URL 获得 我们建立了 REMI 估计器误差的上限,该上限与具有完整个体级数据的 Lasso 的最小最大误差界的阶数相同。特别是,当从大量样本和少量参考样本中获得边际信息时,REMI 会产生良好的估计和预测结果,并且优于 Lasso,因为可访问的个体级别数据的样本量可能有限。通过对 NFBC1966 GWAS 数据集的模拟研究和真实数据分析,我们证明了 REMI 可以广泛适用。开发的 R 包和重现所有结果的代码可在此 https URL 获得 我们建立了 REMI 估计器误差的上限,该上限与具有完整个体级数据的 Lasso 的最小最大误差界的阶数相同。特别是,当从大量样本和少量参考样本中获得边际信息时,REMI 会产生良好的估计和预测结果,并且优于 Lasso,因为可访问的个体级别数据的样本量可能有限。通过对 NFBC1966 GWAS 数据集的模拟研究和真实数据分析,我们证明了 REMI 可以广泛适用。开发的 R 包和重现所有结果的代码可在此 https URL 获得 当从大量样本和少量参考样本中获得边际信息时,REMI 会产生良好的估计和预测结果,并且优于 Lasso,因为可访问的个体级别数据的样本量可能有限。通过对 NFBC1966 GWAS 数据集的模拟研究和真实数据分析,我们证明了 REMI 可以广泛适用。开发的 R 包和重现所有结果的代码可在此 https URL 获得 当从大量样本和少量参考样本中获得边际信息时,REMI 会产生良好的估计和预测结果,并且优于 Lasso,因为可访问的个体级别数据的样本量可能有限。通过对 NFBC1966 GWAS 数据集的模拟研究和真实数据分析,我们证明了 REMI 可以广泛适用。开发的 R 包和重现所有结果的代码可在此 https URL 获得 我们证明了 REMI 可以广泛适用。开发的 R 包和重现所有结果的代码可在此 https URL 获得 我们证明了 REMI 可以广泛适用。开发的 R 包和重现所有结果的代码可在此 https URL 获得
更新日期:2021-01-01
down
wechat
bug