当前位置: X-MOL 学术arXiv.cs.SE › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Prioritizing documentation effort: Can we do better?
arXiv - CS - Software Engineering Pub Date : 2020-06-18 , DOI: arxiv-2006.10892
Shiran Liu, Zhaoqiang Guo, Yanhui Li, Hongmin Lu, Lin Chen, Lei Xu, Yuming Zhou, Baowen Xu

Code documentations are essential for software quality assurance, but due to time or economic pressures, code developers are often unable to write documents for all modules in a project. Recently, a supervised artificial neural network (ANN) approach is proposed to prioritize important modules for documentation effort. However, as a supervised approach, there is a need to use labeled training data to train the prediction model, which may not be easy to obtain in practice. Furthermore, it is unclear whether the ANN approach is generalizable, as it is only evaluated on several small data sets. In this paper, we propose an unsupervised approach based on PageRank to prioritize documentation effort. This approach identifies "important" modules only based on the dependence relationships between modules in a project. As a result, the PageRank approach does not need any training data to build the prediction model. In order to evaluate the effectiveness of the PageRank approach, we use six additional large data sets to conduct the experiments in addition to the same data sets collected from open-source projects as used in prior studies. The experimental results show that the PageRank approach is superior to the state-of-the-art ANN approach in prioritizing important modules for documentation effort. In particular, due to the simplicity and effectiveness, we advocate that the PageRank approach should be used as an easy-to-implement baseline in future research on documentation effort prioritization, and any new approach should be compared with it to demonstrate its effectiveness.

中文翻译:

优先考虑文档工作:我们能做得更好吗?

代码文档对于软件质量保证必不可少,但由于时间或经济压力,代码开发人员往往无法为项目中的所有模块编写文档。最近,提出了一种有监督的人工神经网络 (ANN) 方法来优先考虑文档工作的重要模块。然而,作为一种有监督的方法,需要使用标记的训练数据来训练预测模型,这在实践中可能并不容易获得。此外,尚不清楚 ANN 方法是否可推广,因为它仅在几个小数据集上进行评估。在本文中,我们提出了一种基于 PageRank 的无监督方法来优先考虑文档工作。这种方法仅根据项目中模块之间的依赖关系来识别“重要”模块。因此,PageRank 方法不需要任何训练数据来构建预测模型。为了评估 PageRank 方法的有效性,除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。为了评估 PageRank 方法的有效性,除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。为了评估 PageRank 方法的有效性,除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。
更新日期:2020-06-22
down
wechat
bug