当前位置: X-MOL 学术arXiv.cs.CV › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A Bayesian Evaluation Framework for Ground Truth-Free Visual Recognition Tasks
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2020-06-20 , DOI: arxiv-2007.06711
Derek S. Prijatelj (1), Mel McCurrie (2), Walter J. Scheirer (1) ((1) University of Notre Dame, Notre Dame, USA, (2) Perceptive Automata, Boston, USA)

An interesting development in automatic visual recognition has been the emergence of tasks where it is not possible to assign ground truth labels to images, yet still feasible to collect annotations that reflect human judgements about them. Such tasks include subjective visual attribute assignment and the labeling of ambiguous scenes. Machine learning-based predictors for these tasks rely on supervised training that models the behavior of the annotators, e.g., what would the average person's judgement be for an image? A key open question for this type of work, especially for applications where inconsistency with human behavior can lead to ethical lapses, is how to evaluate the uncertainty of trained predictors. Given that the real answer is unknowable, we are left with often noisy judgements from human annotators to work with. In order to account for the uncertainty that is present, we propose a relative Bayesian framework for evaluating predictors trained on such data. The framework specifies how to estimate a predictor's uncertainty due to the human labels by approximating a conditional distribution and producing a credible interval for the predictions and their measures of performance. The framework is successfully applied to four image classification tasks that use subjective human judgements: facial beauty assessment using the SCUT-FBP5500 dataset, social attribute assignment using data from TestMyBrain.org, apparent age estimation using data from the ChaLearn series of challenges, and ambiguous scene labeling using the LabelMe dataset.

中文翻译:

无地面实况视觉识别任务的贝叶斯评估框架

自动视觉识别中一个有趣的发展是出现了无法为图像分配真实标签的任务,但仍然可以收集反映人类对它们的判断的注释。这些任务包括主观视觉属性分配和模糊场景的标记。这些任务的基于机器学习的预测器依赖于对注释者行为建模的监督训练,例如,普通人对图像的判断是什么?对于此类工作,尤其是对于与人类行为不一致可能导致道德失误的应用程序,一个关键的未决问题是如何评估受过训练的预测器的不确定性。考虑到真正的答案是不可知的,我们经常会面临来自人类注释者的嘈杂判断。为了解释存在的不确定性,我们提出了一个相对的贝叶斯框架来评估在此类数据上训练的预测器。该框架指定了如何通过近似条件分布并为预测及其性能度量生成可信区间来估计由于人工标签而导致的预测器的不确定性。该框架已成功应用于使用主观人类判断的四个图像分类任务:使用 SCUT-FBP5500 数据集进行面部美容评估、使用来自 TestMyBrain.org 的数据进行社交属性分配、使用来自 ChaLearn 系列挑战的数据进行表观年龄估计以及模棱两可使用 LabelMe 数据集进行场景标记。我们提出了一个相对的贝叶斯框架来评估在此类数据上训练的预测器。该框架指定了如何通过近似条件分布并为预测及其性能度量生成可信区间来估计由于人工标签而导致的预测器的不确定性。该框架已成功应用于使用主观人类判断的四个图像分类任务:使用 SCUT-FBP5500 数据集进行面部美容评估、使用来自 TestMyBrain.org 的数据进行社交属性分配、使用来自 ChaLearn 系列挑战的数据进行表观年龄估计以及模棱两可使用 LabelMe 数据集进行场景标记。我们提出了一个相对的贝叶斯框架来评估在此类数据上训练的预测器。该框架指定了如何通过近似条件分布并为预测及其性能度量生成可信区间来估计由于人工标签而导致的预测器的不确定性。该框架已成功应用于使用主观人类判断的四个图像分类任务:使用 SCUT-FBP5500 数据集进行面部美容评估、使用来自 TestMyBrain.org 的数据进行社交属性分配、使用来自 ChaLearn 系列挑战的数据进行表观年龄估计以及模棱两可使用 LabelMe 数据集进行场景标记。通过近似条件分布并为预测及其性能度量生成可信区间,从而消除由人工标签引起的不确定性。该框架已成功应用于使用主观人类判断的四个图像分类任务:使用 SCUT-FBP5500 数据集进行面部美容评估、使用来自 TestMyBrain.org 的数据进行社交属性分配、使用来自 ChaLearn 系列挑战的数据进行表观年龄估计以及模棱两可使用 LabelMe 数据集进行场景标记。通过近似条件分布并为预测及其性能度量生成可信区间,从而消除由人工标签引起的不确定性。该框架已成功应用于使用主观人类判断的四个图像分类任务:使用 SCUT-FBP5500 数据集进行面部美容评估、使用来自 TestMyBrain.org 的数据进行社交属性分配、使用来自 ChaLearn 系列挑战的数据进行表观年龄估计以及模棱两可使用 LabelMe 数据集进行场景标记。
更新日期:2020-07-15
down
wechat
bug