当前位置: X-MOL 学术Am. Stat. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Vardeman, S. B. and Morris, M. D. (2013), “Majority Voting by Independent Classifiers can Increase Error Rates,” The American Statistician, 67, 94-96: Comment by Baker, Xu, Hu, and Huang and Reply
The American Statistician ( IF 1.8 ) Pub Date : 2014-04-03 , DOI: 10.1080/00031305.2014.882867
Stuart G Baker 1 , Jian-Lun Xu 1 , Ping Hu 1 , Peng Huang 2
Affiliation  

Vardeman and Morris (VM) found a counterexample to the assertion that a majority voting classifier always performs better than its independent component classifiers. VM's counterexample applies to independent classifiers, but biostatisticians are often more interested in conditionally independent classifiers. In biomedical studies, where class is disease status, classifiers are inherently dependent simply because positivity of any reasonable classifier depends on the presence or absence of disease. Conditional independence of classifiers, given disease status, could arise if the classifiers are detecting different biological phenomenon, such as tissue abnormalities versus protein markers. To explore how majority voting affects classification performance with conditionally independent classifiers, we investigated many examples (Figure 1). Much as we expected, we found that it generally works quite well. However, we also found that conditional independence is not a sufficient condition to ensure that majority voting always leads to better classification performance than the individual classifiers. Figure 1 Comparison of ROC curves for majority voting classifier and conditionally independent component classifiers. The 45-degree line is included for reference. As with VM, we considered two classes and component classifiers with identical classification performances. To measure classification performance we used receiver operating characteristic (ROC) curves. ROC curves play a central role in the evaluation of diagnostic and screening tests (Baker 2003; Pepe 2003). In accordance with a decision theory view of ROC curves (Baker, Van Calster, and Steyerberg 2012), we restricted our investigation to ROC curves that are concave, namely with monotonically decreasing slopes from left to right. For a given cutpoint x of a score, let fpr(x) and tpr(x) denote the false positive and true positive rates of the component classifier. The ROC curve for the component classifier plots tpr(x) versus fpr(x). At a given cutpoint, the true positive rate for the majority voting classifier is the probability of three or exactly two true positives among the component classifiers, namely tprM(x) = tpr(x)3 + 3 tpr(x)2 {1−tpr(x)}. Similarly the false positive rate for the majority voting classifier is fprM(x) = fpr(x)3 + 3 fpr(x)2 {1−fpr(x)}. The ROC curve for the majority voting classifier plots tprM(x) versus fprM(x). We considered the following six cases.

中文翻译:

Vardeman, SB 和 Morris, MD (2013),“独立分类器的多数投票会增加错误率”,美国统计学家,67、94-96:Baker、Xu、Hu 和 Huang 的评论和回复

Vardeman 和 Morris (VM) 发现了一个反例,以证明多数投票分类器的性能总是优于其独立分量分类器。VM 的反例适用于独立分类器,但生物统计学家通常对条件独立分类器更感兴趣。在生物医学研究中,分类是疾病状态,分类器本质上是相关的,因为任何合理分类器的阳性都取决于疾病的存在或不存在。如果分类器检测到不同的生物现象,例如组织异常与蛋白质标记物,则分类器的条件独立性可能会出现,给定疾病状态。为了探索多数投票如何影响条件独立分类器的分类性能,我们研究了许多示例(图 1)。正如我们所料,我们发现它通常运行良好。然而,我们还发现条件独立性并不是确保多数投票总是导致比单个分类器更好的分类性能的充分条件。图 1 多数投票分类器和条件独立分量分类器的 ROC 曲线比较。包括 45 度线以供参考。与 VM 一样,我们考虑了具有相同分类性能的两个类和组件分类器。为了测量分类性能,我们使用了接收者操作特征 (ROC) 曲线。ROC 曲线在诊断和筛查测试的评估中起着核心作用(Baker 2003;Pepe 2003)。根据 ROC 曲线的决策理论观点(Baker、Van Calster 和 Steyerberg 2012),我们将研究限制在凹的 ROC 曲线上,即从左到右单调递减的斜率。对于分数的给定切点 x,让 fpr(x) 和 tpr(x) 表示组件分类器的假阳性率和真阳性率。组件分类器的 ROC 曲线绘制了 tpr(x) 与 fpr(x) 的关系。在给定的切点上,多数投票分类器的真阳性率是组件分类器中三个或恰好两个真阳性的概率,即 tprM(x) = tpr(x)3 + 3 tpr(x)2 {1− tpr(x)}。类似地,多数投票分类器的误报率为 fprM(x) = fpr(x)3 + 3 fpr(x)2 {1−fpr(x)}。多数投票分类器的 ROC 曲线绘制了 tprM(x) 与 fprM(x)。我们考虑了以下六种情况。即从左到右单调递减的斜率。对于分数的给定切点 x,让 fpr(x) 和 tpr(x) 表示组件分类器的假阳性率和真阳性率。组件分类器的 ROC 曲线绘制了 tpr(x) 与 fpr(x) 的关系。在给定的切点上,多数投票分类器的真阳性率是组件分类器中三个或恰好两个真阳性的概率,即 tprM(x) = tpr(x)3 + 3 tpr(x)2 {1− tpr(x)}。类似地,多数投票分类器的误报率为 fprM(x) = fpr(x)3 + 3 fpr(x)2 {1−fpr(x)}。多数投票分类器的 ROC 曲线绘制了 tprM(x) 与 fprM(x)。我们考虑了以下六种情况。即从左到右单调递减的斜率。对于分数的给定切点 x,让 fpr(x) 和 tpr(x) 表示组件分类器的假阳性率和真阳性率。组件分类器的 ROC 曲线绘制了 tpr(x) 与 fpr(x) 的关系。在给定的切点上,多数投票分类器的真阳性率是组件分类器中三个或恰好两个真阳性的概率,即 tprM(x) = tpr(x)3 + 3 tpr(x)2 {1− tpr(x)}。类似地,多数投票分类器的误报率为 fprM(x) = fpr(x)3 + 3 fpr(x)2 {1−fpr(x)}。多数投票分类器的 ROC 曲线绘制了 tprM(x) 与 fprM(x)。我们考虑了以下六种情况。让 fpr(x) 和 tpr(x) 表示组件分类器的假阳性率和真阳性率。组件分类器的 ROC 曲线绘制了 tpr(x) 与 fpr(x) 的关系。在给定的切点上,多数投票分类器的真阳性率是组件分类器中三个或恰好两个真阳性的概率,即 tprM(x) = tpr(x)3 + 3 tpr(x)2 {1− tpr(x)}。类似地,多数投票分类器的误报率为 fprM(x) = fpr(x)3 + 3 fpr(x)2 {1−fpr(x)}。多数投票分类器的 ROC 曲线绘制了 tprM(x) 与 fprM(x)。我们考虑了以下六种情况。让 fpr(x) 和 tpr(x) 表示组件分类器的假阳性率和真阳性率。组件分类器的 ROC 曲线绘制了 tpr(x) 与 fpr(x) 的关系。在给定的切点上,多数投票分类器的真阳性率是组件分类器中三个或恰好两个真阳性的概率,即 tprM(x) = tpr(x)3 + 3 tpr(x)2 {1− tpr(x)}。类似地,多数投票分类器的误报率为 fprM(x) = fpr(x)3 + 3 fpr(x)2 {1−fpr(x)}。多数投票分类器的 ROC 曲线绘制了 tprM(x) 与 fprM(x)。我们考虑了以下六种情况。多数投票分类器的真阳性率是组件分类器中三个或恰好两个真阳性的概率,即 tprM(x) = tpr(x)3 + 3 tpr(x)2 {1−tpr(x)} . 类似地,多数投票分类器的误报率为 fprM(x) = fpr(x)3 + 3 fpr(x)2 {1−fpr(x)}。多数投票分类器的 ROC 曲线绘制了 tprM(x) 与 fprM(x)。我们考虑了以下六种情况。多数投票分类器的真阳性率是组件分类器中三个或恰好两个真阳性的概率,即 tprM(x) = tpr(x)3 + 3 tpr(x)2 {1−tpr(x)} . 类似地,多数投票分类器的误报率为 fprM(x) = fpr(x)3 + 3 fpr(x)2 {1−fpr(x)}。多数投票分类器的 ROC 曲线绘制了 tprM(x) 与 fprM(x)。我们考虑了以下六种情况。
更新日期:2014-04-03
down
wechat
bug