A critical review on the evaluation of automated program repair systems,Journal of Systems and Software

当前位置： X-MOL 学术 › J. Syst. Softw. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

A critical review on the evaluation of automated program repair systems
Journal of Systems and Software ( IF 3.5 ) Pub Date : 2021-01-01 , DOI: 10.1016/j.jss.2020.110817
Kui Liu , Li Li , Anil Koyuncu , Dongsun Kim , Zhe Liu , Jacques Klein , Tegawendé F. Bissyandé

Abstract Automated Program Repair (APR) has attracted significant attention from software engineering research and practice communities in the last decade. Several teams have recorded promising performance in fixing real bugs and there is a race in the literature to fix as many bugs as possible from established benchmarks. Gradually, repair performance of APR tools in the literature has gone from being evaluated with a metric on the number of generated plausible patches to the number of correct patches. This evolution is necessary after a study highlighting the overfitting issue in test suite-based automatic patch generation. Simultaneously, some researchers are also insisting on providing time cost in the repair scenario as a metric for comparing state-of-the-art systems. In this paper, we discuss how the latest evaluation metrics of APR systems could be biased. Since design decisions (both in approach and evaluation setup) are not always fully disclosed, the impact on repair performance is unknown and computed metrics are often misleading. To reduce notable biases of design decisions in program repair approaches, we conduct a critical review on the evaluation of patch generation systems and propose eight evaluation metrics for fairly assessing the performance of APR tools. Eventually, we show with experimental data on 11 baseline program repair systems that the proposed metrics allow to highlight some caveats in the literature. We expect wide adoption of these metrics in the community to contribute to boosting the development of practical, and reliably performable program repair tools.

中文翻译：

对自动化程序修复系统评估的批判性审查

摘要在过去的十年中，自动程序修复（APR）引起了软件工程研究和实践社区的极大关注。几个团队在修复实际错误方面取得了可喜的成绩，并且文献中存在着从既定的基准测试中修复尽可能多的错误的竞赛。逐渐地，文献中 APR 工具的修复性能已经从使用生成的合理补丁数量的度量评估为正确补丁的数量。在一项研究强调了基于测试套件的自动补丁生成中的过度拟合问题之后，这种演变是必要的。同时，一些研究人员还坚持提供维修场景中的时间成本作为比较最先进系统的指标。在本文中，我们讨论了 APR 系统的最新评估指标如何存在偏差。由于设计决策（在方法和评估设置中）并不总是完全公开，因此对修复性能的影响是未知的，并且计算出的指标通常具有误导性。为了减少程序修复方法中设计决策的显着偏差，我们对补丁生成系统的评估进行了严格审查，并提出了八个评估指标，以公平评估 APR 工具的性能。最后，我们展示了 11 个基线程序修复系统的实验数据，建议的指标允许突出文献中的一些警告。我们希望社区广泛采用这些指标，以促进实用且可靠的程序修复工具的开发。由于设计决策（在方法和评估设置中）并不总是完全公开，因此对修复性能的影响是未知的，并且计算出的指标通常具有误导性。为了减少程序修复方法中设计决策的显着偏差，我们对补丁生成系统的评估进行了严格审查，并提出了八个评估指标，以公平评估 APR 工具的性能。最后，我们展示了 11 个基线程序修复系统的实验数据，建议的指标允许突出文献中的一些警告。我们希望社区广泛采用这些指标，以促进实用且可靠的程序修复工具的开发。由于设计决策（在方法和评估设置中）并不总是完全公开，因此对修复性能的影响是未知的，并且计算出的指标通常具有误导性。为了减少程序修复方法中设计决策的显着偏差，我们对补丁生成系统的评估进行了严格审查，并提出了八个评估指标，以公平评估 APR 工具的性能。最后，我们展示了 11 个基线程序修复系统的实验数据，建议的指标允许突出文献中的一些警告。我们希望社区广泛采用这些指标，以促进实用且可靠的程序修复工具的开发。对维修性能的影响是未知的，计算出的指标通常具有误导性。为了减少程序修复方法中设计决策的显着偏差，我们对补丁生成系统的评估进行了严格审查，并提出了八个评估指标，以公平评估 APR 工具的性能。最后，我们展示了 11 个基线程序修复系统的实验数据，建议的指标允许突出文献中的一些警告。我们希望社区广泛采用这些指标，以促进实用且可靠的程序修复工具的开发。对维修性能的影响是未知的，计算出的指标通常具有误导性。为了减少程序修复方法中设计决策的显着偏差，我们对补丁生成系统的评估进行了严格审查，并提出了八个评估指标，以公平评估 APR 工具的性能。最后，我们展示了 11 个基线程序修复系统的实验数据，建议的指标允许突出文献中的一些警告。我们希望社区广泛采用这些指标，以促进实用且可靠的程序修复工具的开发。我们对补丁生成系统的评估进行了严格审查，并提出了八个评估指标，以公平评估 APR 工具的性能。最后，我们展示了 11 个基线程序修复系统的实验数据，建议的指标允许突出文献中的一些警告。我们希望社区广泛采用这些指标，以促进实用且可靠的程序修复工具的开发。我们对补丁生成系统的评估进行了严格审查，并提出了八个评估指标，以公平评估 APR 工具的性能。最后，我们展示了 11 个基线程序修复系统的实验数据，建议的指标允许突出文献中的一些警告。我们希望社区广泛采用这些指标，以促进实用且可靠的程序修复工具的开发。

更新日期：2021-01-01

点击分享查看原文

点击收藏

阅读更多本刊最新论文本刊介绍/投稿指南

全部期刊列表>>