当前位置: X-MOL 学术Comput. Electr. Eng. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Instance selection in medical datasets: A divide-and-conquer framework
Computers & Electrical Engineering ( IF 4.3 ) Pub Date : 2021-01-01 , DOI: 10.1016/j.compeleceng.2020.106957
Min-Wei Huang , Chih-Fong Tsai , Wei-Chao Lin

Instance selection is an important problem in medical data mining. It focuses on selecting representative data samples from a given training set, whereas unrepresentative (or noisy) data samples are filtered out. This reduces the size of the training set, which then requires less storage space. In addition, when the instance selection algorithm was carefully chosen, a reduction in the training set so that it contains less noisy data can usually make the classifiers perform better than the ones without considering instance selection. In the literature, many instance selection algorithms have been proposed. However, different algorithms tend to use different criteria to determine the noisy data, making it difficult to find the best algorithm for different domain datasets. In other words, some algorithms may perform better than the others for some specific domain datasets, but may perform worse than others over other domain datasets. Instead of developing a novel algorithm that performs better than most other algorithms, this paper introduces a divide-and-conquer based instance selection (DCIS) framework that aims to improve the performance of each specific instance selection algorithm per se. Two well-known algorithms, i.e., DROP3 and IB3, are used as the baseline, and various small and large scale medical datasets are used in the experiments. Our results show that when DROP3 and IB3 are used to perform instance selection based on the DCIS framework, there is an improvement in the performance of the k-NN and SVM classifiers over the ones by the DROP3 and IB3 baselines, respectively.



中文翻译:

医疗数据集中的实例选择:分而治之框架

实例选择是医学数据挖掘中的重要问题。它着重于从给定的训练集中选择代表性数据样本,而非代表性(或嘈杂)的数据样本将被过滤掉。这样可以减小训练集的大小,从而需要更少的存储空间。另外,当精心选择实例选择算法时,减少训练集以使其包含较少的噪声数据通常可以使分类器的性能优于不考虑实例选择的分类器。在文献中,已经提出了许多实例选择算法。但是,不同的算法倾向于使用不同的标准来确定嘈杂的数据,从而难以为不同的域数据集找到最佳算法。换一种说法,对于某些特定领域数据集,某些算法的性能可能比其他算法好,但在其他领域数据集上,其算法可能比其他算法差。本文没有开发一种性能优于大多数其他算法的新颖算法,而是引入了一种基于分而治之的实例选择(DCIS)框架,旨在提高每种特定实例选择算法本身的性能。两种众所周知的算法DROP3和IB3被用作基准,并且实验中使用了各种小型和大型医学数据集。我们的结果表明,当使用DROP3和IB3进行基于DCIS框架的实例选择时,与分别使用DROP3和IB3基准的分类器相比,k-NN和SVM分类器的性能有了改善。但在其他域数据集上的表现可能会比其他数据差。本文没有开发一种性能优于大多数其他算法的新颖算法,而是引入了一种基于分而治之的实例选择(DCIS)框架,旨在提高每种特定实例选择算法本身的性能。两种众所周知的算法DROP3和IB3被用作基准,并且实验中使用了各种小型和大型医学数据集。我们的结果表明,当使用DROP3和IB3进行基于DCIS框架的实例选择时,与分别使用DROP3和IB3基准的分类器相比,k-NN和SVM分类器的性能有了改善。但在其他域数据集上的表现可能会比其他数据差。本文没有开发一种性能优于大多数其他算法的新颖算法,而是引入了一种基于分而治之的实例选择(DCIS)框架,旨在提高每种特定实例选择算法本身的性能。两种众所周知的算法DROP3和IB3被用作基准,并且在实验中使用了各种小型和大型医学数据集。我们的结果表明,当使用DROP3和IB3进行基于DCIS框架的实例选择时,与分别使用DROP3和IB3基准的分类器相比,k-NN和SVM分类器的性能有了改善。本文介绍了一种基于分而治之的实例选择(DCIS)框架,旨在提高每种特定实例选择算法本身的性能。两种众所周知的算法DROP3和IB3被用作基准,并且实验中使用了各种小型和大型医学数据集。我们的结果表明,当使用DROP3和IB3进行基于DCIS框架的实例选择时,与分别使用DROP3和IB3基准的分类器相比,k-NN和SVM分类器的性能有了改善。本文介绍了一种基于分而治之的实例选择(DCIS)框架,旨在提高每种特定实例选择算法本身的性能。两种众所周知的算法DROP3和IB3被用作基准,并且实验中使用了各种小型和大型医学数据集。我们的结果表明,当使用DROP3和IB3进行基于DCIS框架的实例选择时,与分别使用DROP3和IB3基准的分类器相比,k-NN和SVM分类器的性能有了改善。实验中使用了各种小型和大型医学数据集。我们的结果表明,当使用DROP3和IB3进行基于DCIS框架的实例选择时,与分别使用DROP3和IB3基准的分类器相比,k-NN和SVM分类器的性能有了改善。实验中使用了各种小型和大型医学数据集。我们的结果表明,当使用DROP3和IB3进行基于DCIS框架的实例选择时,与分别使用DROP3和IB3基准的分类器相比,k-NN和SVM分类器的性能有了改善。

更新日期:2021-01-01
down
wechat
bug