当前位置: X-MOL 学术J. Am. Stat. Assoc. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Generalized Bayes Quantification Learning under Dataset Shift
Journal of the American Statistical Association ( IF 3.7 ) Pub Date : 2021-05-04 , DOI: 10.1080/01621459.2021.1909599
Jacob Fiksel 1 , Abhirup Datta 1 , Agbessi Amouzou 2 , Scott Zeger 1
Affiliation  

Abstract

Quantification learning is the task of prevalence estimation for a test population using predictions from a classifier trained on a different population. Quantification methods assume that the sensitivities and specificities of the classifier are either perfect or transportable from the training to the test population. These assumptions are inappropriate in the presence of dataset shift, when the misclassification rates in the training population are not representative of those for the test population. Quantification under dataset shift has been addressed only for single-class (categorical) predictions and assuming perfect knowledge of the true labels on a small subset of the test population. We propose generalized Bayes quantification learning (GBQL) that uses the entire compositional predictions from probabilistic classifiers and allows for uncertainty in true class labels for the limited labeled test data. Instead of positing a full model, we use a model-free Bayesian estimating equation approach to compositional data using Kullback–Leibler loss-functions based only on a first-moment assumption. The idea will be useful in Bayesian compositional data analysis in general as it is robust to different generating mechanisms for compositional data and allows 0’s and 1’s in the compositional outputs thereby including categorical outputs as a special case. We show how our method yields existing quantification approaches as special cases. Extension to an ensemble GBQL that uses predictions from multiple classifiers yielding inference robust to inclusion of a poor classifier is discussed. We outline a fast and efficient Gibbs sampler using a rounding and coarsening approximation to the loss functions. We establish posterior consistency, asymptotic normality and valid coverage of interval estimates from GBQL, which to our knowledge are the first theoretical results for a quantification approach in the presence of local labeled data. We also establish finite sample posterior concentration rate. Empirical performance of GBQL is demonstrated through simulations and analysis of real data with evident dataset shift. Supplementary materials for this article are available online.



中文翻译:

数据集移位下的广义贝叶斯量化学习

摘要

量化学习是使用来自不同人群训练的分类器的预测来估计测试人群的流行率的任务。量化方法假设分类器的敏感性和特异性是完美的或可从训练群体转移到测试群体。当训练人群中的错误分类率不能代表测试人群的错误分类率时,这些假设在存在数据集偏移的情况下是不合适的。数据集转移下的量化仅针对单类(分类)预测进行了处理,并假设完全了解一小部分测试人群的真实标签。我们提出了广义贝叶斯量化学习 (GBQL),它使用概率分类器的整个成分预测,并允许有限标记测试数据的真实类标签的不确定性。我们使用无模型贝叶斯估计方程方法,而不是建立一个完整的模型,使用仅基于一阶矩假设的 Kullback–Leibler 损失函数来估计成分数据。这个想法通常在贝叶斯组合数据分析中很有用,因为它对组合数据的不同生成机制具有鲁棒性,并且允许组合输出中的 0 和 1,从而将分类输出作为特例包括在内。我们展示了我们的方法如何产生现有的量化方法作为特例。讨论了对集成 GBQL 的扩展,该集成 GBQL 使用来自多个分类器的预测,从而产生对包含较差分类器的鲁棒性推理。我们使用损失函数的舍入和粗化近似来概述快速高效的 Gibbs 采样器。我们建立了 GBQL 区间估计的后验一致性、渐近正态性和有效覆盖率,据我们所知,这是在存在局部标记数据的情况下量化方法的第一个理论结果。我们还建立了有限样本后验浓度率。通过对具有明显数据集偏移的真实数据的模拟和分析,证明了 GBQL 的实证性能。本文的补充材料可在线获取。我们使用损失函数的舍入和粗化近似来概述快速高效的 Gibbs 采样器。我们建立了 GBQL 区间估计的后验一致性、渐近正态性和有效覆盖率,据我们所知,这是在存在局部标记数据的情况下量化方法的第一个理论结果。我们还建立了有限样本后验浓度率。通过对具有明显数据集偏移的真实数据的模拟和分析,证明了 GBQL 的实证性能。本文的补充材料可在线获取。我们使用损失函数的舍入和粗化近似来概述快速高效的 Gibbs 采样器。我们建立了 GBQL 区间估计的后验一致性、渐近正态性和有效覆盖率,据我们所知,这是在存在局部标记数据的情况下量化方法的第一个理论结果。我们还建立了有限样本后验浓度率。通过对具有明显数据集偏移的真实数据的模拟和分析,证明了 GBQL 的实证性能。本文的补充材料可在线获取。据我们所知,这是在存在局部标记数据的情况下量化方法的第一个理论结果。我们还建立了有限样本后验浓度率。通过对具有明显数据集偏移的真实数据的模拟和分析,证明了 GBQL 的实证性能。本文的补充材料可在线获取。据我们所知,这是在存在局部标记数据的情况下量化方法的第一个理论结果。我们还建立了有限样本后验浓度率。通过对具有明显数据集偏移的真实数据的模拟和分析,证明了 GBQL 的实证性能。本文的补充材料可在线获取。

更新日期:2021-05-04
down
wechat
bug