Boosting with Lexicographic Programming: Addressing Class Imbalance without Cost Tuning,IEEE Transactions on Knowledge and Data Engineering

当前位置： X-MOL 学术 › IEEE Trans. Knowl. Data. Eng. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Boosting with Lexicographic Programming: Addressing Class Imbalance without Cost Tuning
IEEE Transactions on Knowledge and Data Engineering ( IF 8.9 ) Pub Date : 2020-05-01 , DOI: 10.1109/tkde.2019.2894148
Shounak Datta , Sayak Nag , Swagatam Das

A large amount of research effort has been dedicated to adapting boosting for imbalanced classification. However, boosting methods are yet to be satisfactorily immune to class imbalance, especially for multi-class problems. This is because most of the existing solutions for handling class imbalance rely on expensive cost set tuning for determining the proper level of compensation. We show that the assignment of weights to the component classifiers of a boosted ensemble can be thought of as a game of Tug of War between the classes in the margin space. We then demonstrate how this insight can be used to attain a good compromise between the rare and abundant classes without having to resort to cost set tuning, which has long been the norm for imbalanced classification. The solution is based on a lexicographic linear programming framework which requires two stages. Initially, class-specific component weight combinations are found so as to minimize a hinge loss individually for each of the classes. Subsequently, the final component weights are assigned so that the maximum deviation from the class-specific minimum loss values (obtained in the previous stage) is minimized. Hence, the proposal is not only restricted to two-class situations, but is also readily applicable to multi-class problems. Additionally, we also derive the dual formulation corresponding to the proposed framework. Experiments conducted on artificial and real-world imbalanced datasets as well as on challenging applications such as hyperspectral image classification and ImageNet classification establish the efficacy of the proposal.

中文翻译：

使用字典式编程提升：在不进行成本调整的情况下解决类不平衡问题

大量的研究工作致力于适应不平衡分类的提升。然而，boosting 方法还没有令人满意地免疫类不平衡，特别是对于多类问题。这是因为处理类别不平衡的大多数现有解决方案依赖昂贵的成本集调整来确定适当的补偿水平。我们表明，可以将权重分配给增强集成的组件分类器，可以将其视为边缘空间中类之间的拔河游戏。然后，我们展示了如何使用这种洞察力在稀有类和丰富类之间实现良好的折衷，而不必求助于成本集调整，这长期以来一直是不平衡分类的规范。该解决方案基于需要两个阶段的词典线性规划框架。最初，找到特定于类的组件权重组合，以便为每个类分别最小化铰链损失。随后，分配最终组件权重，以便与特定类别的最小损失值（在前一阶段获得）的最大偏差最小化。因此，该提议不仅限于二类情况，而且很容易适用于多类问题。此外，我们还推导出与所提出的框架相对应的双重公式。对人工和现实世界不平衡数据集以及高光谱图像分类和 ImageNet 分类等具有挑战性的应用进行的实验证明了该提案的有效性。最初，找到特定于类的组件权重组合，以便为每个类分别最小化铰链损失。随后，分配最终组件权重，以便与特定类别的最小损失值（在前一阶段获得）的最大偏差最小化。因此，该提议不仅限于二类情况，而且很容易适用于多类问题。此外，我们还推导出与所提出的框架相对应的双重公式。对人工和现实世界不平衡数据集以及高光谱图像分类和 ImageNet 分类等具有挑战性的应用进行的实验证明了该提案的有效性。最初，找到特定于类的组件权重组合，以便为每个类分别最小化铰链损失。随后，分配最终组件权重，以便与特定类别的最小损失值（在前一阶段获得）的最大偏差最小化。因此，该提议不仅限于二类情况，而且很容易适用于多类问题。此外，我们还推导出与所提出的框架相对应的双重公式。对人工和现实世界不平衡数据集以及高光谱图像分类和 ImageNet 分类等具有挑战性的应用进行的实验证明了该提案的有效性。找到特定于类的组件权重组合，以便为每个类分别最小化铰链损失。随后，分配最终组件权重，以便与特定类别的最小损失值（在前一阶段获得）的最大偏差最小化。因此，该提议不仅限于二类情况，而且很容易适用于多类问题。此外，我们还推导出与所提出的框架相对应的双重公式。对人工和现实世界不平衡数据集以及高光谱图像分类和 ImageNet 分类等具有挑战性的应用进行的实验证明了该提案的有效性。找到特定于类的组件权重组合，以便为每个类分别最小化铰链损失。随后，分配最终组件权重，以便与特定类别的最小损失值（在前一阶段获得）的最大偏差最小化。因此，该提议不仅限于二类情况，而且很容易适用于多类问题。此外，我们还推导出与所提出的框架相对应的双重公式。对人工和现实世界不平衡数据集以及高光谱图像分类和 ImageNet 分类等具有挑战性的应用进行的实验确定了该提案的有效性。分配最终的组件权重，以便与特定类别的最小损失值（在前一阶段获得）的最大偏差最小化。因此，该提议不仅限于二类情况，而且很容易适用于多类问题。此外，我们还推导出与所提出的框架相对应的双重公式。对人工和现实世界不平衡数据集以及高光谱图像分类和 ImageNet 分类等具有挑战性的应用进行的实验证明了该提案的有效性。分配最终的组件权重，以便与特定类别的最小损失值（在前一阶段获得）的最大偏差最小化。因此，该提议不仅限于二类情况，而且很容易适用于多类问题。此外，我们还推导出与所提出的框架相对应的双重公式。对人工和现实世界不平衡数据集以及高光谱图像分类和 ImageNet 分类等具有挑战性的应用进行的实验证明了该提案的有效性。我们还推导出与提议的框架相对应的双重公式。对人工和现实世界不平衡数据集以及高光谱图像分类和 ImageNet 分类等具有挑战性的应用进行的实验证明了该提案的有效性。我们还推导出与提议的框架相对应的双重公式。对人工和现实世界不平衡数据集以及高光谱图像分类和 ImageNet 分类等具有挑战性的应用进行的实验证明了该提案的有效性。

更新日期：2020-05-01

点击分享查看原文

点击收藏

公开下载

阅读更多本刊最新论文本刊介绍/投稿指南11