当前位置: X-MOL 学术Empir. Software Eng. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Are datasets for information retrieval-based bug localization techniques trustworthy?
Empirical Software Engineering ( IF 4.1 ) Pub Date : 2021-03-19 , DOI: 10.1007/s10664-021-09946-8
Misoo Kim , Eunseok Lee

Various evaluation datasets are used to evaluate the performance of information retrieval-based bug localization (IRBL) techniques. To accurately evaluate the IRBL and furthermore improve the performance, it is strongly required to analyze the validity of these datasets in advance. To this end, we surveyed 50 previous studies, collected 41,754 bug reports, and found out critical problems that affect the validity of results of performance evaluation. They are in both the ground truth and the search space. These problems arise from using different bug types without clearly distinguishing them. We divided the bugs into production- and test-related bugs. Based on this distinction, we investigate and analyze the impact of the bug type on IRBL performance evaluation. Approximately 18.6% of the bug reports were linked to non-buggy files as the ground truth. Up to 58.5% of the source files in the search space introduced noise into the localization of a specific bug type. From the experiments, we validated that the average precision changed in approximately 90% of the bug reports linked with an incorrect ground truth; we determined that specifying a suitable search space changed the average precision in at least half of the bug reports. Further, we showed that these problems can alter the relative ranks of the IRBL techniques. Our large-scale analysis demonstrated that a significant amount of noise occurs, which can compromise the evaluation results. An important finding of this study is that it is essential to consider the bug types to improve the accuracy of the performance evaluation.



中文翻译:

基于信息检索的错误定位技术的数据集是否值得信赖?

各种评估数据集用于评估基于信息检索的错误定位(IRBL)技术的性能。为了准确评估IRBL并进一步提高性能,强烈需要事先分析这些数据集的有效性。为此,我们调查了50项先前的研究,收集了41,754个错误报告,并找出了影响绩效评估结果有效性的关键问题。它们既存在于地面真理中,也存在于搜寻空间中。这些问题是由于使用不同的错误类型而没有清楚地区分它们引起的。我们将这些错误分为与生产和测试相关的错误。基于这种区别,我们调查并分析了错误类型对IRBL性能评估的影响。大约18。6%的错误报告已与非错误文件相关联,这是事实。搜索空间中多达58.5%的源文件将噪声引入了特定错误类型的本地化。通过实验,我们验证了平均错误率大约有90%的错误报告与错误的事实相联系;我们确定指定合适的搜索空间至少会改变一半错误报告的平均精度。此外,我们证明了这些问题可以改变IRBL技术的相对等级。我们的大规模分析表明,会产生大量噪声,这可能会影响评估结果。这项研究的重要发现是必须考虑错误类型以提高性能评估的准确性。搜索空间中有5%的源文件将噪声引入了特定错误类型的本地化。通过实验,我们验证了平均错误率大约有90%的错误报告与错误的事实相联系;我们确定指定合适的搜索空间至少会改变一半错误报告的平均精度。此外,我们证明了这些问题可以改变IRBL技术的相对等级。我们的大规模分析表明,会产生大量噪声,这可能会影响评估结果。这项研究的重要发现是必须考虑错误类型以提高性能评估的准确性。搜索空间中有5%的源文件将噪声引入了特定错误类型的本地化。通过实验,我们验证了平均错误率大约有90%的错误报告与错误的事实相联系;我们确定指定合适的搜索空间至少会改变一半错误报告的平均精度。此外,我们证明了这些问题可以改变IRBL技术的相对等级。我们的大规模分析表明,会产生大量噪声,这可能会影响评估结果。这项研究的重要发现是必须考虑错误类型以提高性能评估的准确性。我们验证了大约90%的错误报告(与错误的真实情况相关)中的平均精度发生了变化;我们确定指定合适的搜索空间至少会改变一半错误报告的平均精度。此外,我们证明了这些问题可以改变IRBL技术的相对等级。我们的大规模分析表明,会产生大量噪声,这可能会影响评估结果。这项研究的重要发现是必须考虑错误类型以提高性能评估的准确性。我们验证了大约90%的错误报告(与错误的真实情况相关)中的平均精度发生了变化;我们确定指定合适的搜索空间至少会改变一半错误报告的平均精度。此外,我们证明了这些问题可以改变IRBL技术的相对等级。我们的大规模分析表明,会产生大量噪声,这可能会影响评估结果。这项研究的重要发现是必须考虑错误类型以提高性能评估的准确性。我们证明了这些问题可以改变IRBL技术的相对等级。我们的大规模分析表明,会产生大量噪声,这可能会影响评估结果。这项研究的重要发现是必须考虑错误类型以提高性能评估的准确性。我们证明了这些问题可以改变IRBL技术的相对等级。我们的大规模分析表明,会产生大量噪声,这可能会影响评估结果。这项研究的重要发现是必须考虑错误类型以提高性能评估的准确性。

更新日期:2021-03-21
down
wechat
bug