当前位置:
X-MOL 学术
›
arXiv.cs.SE
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Prioritizing documentation effort: Can we do better?
arXiv - CS - Software Engineering Pub Date : 2020-06-18 , DOI: arxiv-2006.10892 Shiran Liu, Zhaoqiang Guo, Yanhui Li, Hongmin Lu, Lin Chen, Lei Xu, Yuming Zhou, Baowen Xu
arXiv - CS - Software Engineering Pub Date : 2020-06-18 , DOI: arxiv-2006.10892 Shiran Liu, Zhaoqiang Guo, Yanhui Li, Hongmin Lu, Lin Chen, Lei Xu, Yuming Zhou, Baowen Xu
Code documentations are essential for software quality assurance, but due to
time or economic pressures, code developers are often unable to write documents
for all modules in a project. Recently, a supervised artificial neural network
(ANN) approach is proposed to prioritize important modules for documentation
effort. However, as a supervised approach, there is a need to use labeled
training data to train the prediction model, which may not be easy to obtain in
practice. Furthermore, it is unclear whether the ANN approach is generalizable,
as it is only evaluated on several small data sets. In this paper, we propose
an unsupervised approach based on PageRank to prioritize documentation effort.
This approach identifies "important" modules only based on the dependence
relationships between modules in a project. As a result, the PageRank approach
does not need any training data to build the prediction model. In order to
evaluate the effectiveness of the PageRank approach, we use six additional
large data sets to conduct the experiments in addition to the same data sets
collected from open-source projects as used in prior studies. The experimental
results show that the PageRank approach is superior to the state-of-the-art ANN
approach in prioritizing important modules for documentation effort. In
particular, due to the simplicity and effectiveness, we advocate that the
PageRank approach should be used as an easy-to-implement baseline in future
research on documentation effort prioritization, and any new approach should be
compared with it to demonstrate its effectiveness.
中文翻译:
优先考虑文档工作:我们能做得更好吗?
代码文档对于软件质量保证必不可少,但由于时间或经济压力,代码开发人员往往无法为项目中的所有模块编写文档。最近,提出了一种有监督的人工神经网络 (ANN) 方法来优先考虑文档工作的重要模块。然而,作为一种有监督的方法,需要使用标记的训练数据来训练预测模型,这在实践中可能并不容易获得。此外,尚不清楚 ANN 方法是否可推广,因为它仅在几个小数据集上进行评估。在本文中,我们提出了一种基于 PageRank 的无监督方法来优先考虑文档工作。这种方法仅根据项目中模块之间的依赖关系来识别“重要”模块。因此,PageRank 方法不需要任何训练数据来构建预测模型。为了评估 PageRank 方法的有效性,除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。为了评估 PageRank 方法的有效性,除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。为了评估 PageRank 方法的有效性,除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。
更新日期:2020-06-22
中文翻译:
优先考虑文档工作:我们能做得更好吗?
代码文档对于软件质量保证必不可少,但由于时间或经济压力,代码开发人员往往无法为项目中的所有模块编写文档。最近,提出了一种有监督的人工神经网络 (ANN) 方法来优先考虑文档工作的重要模块。然而,作为一种有监督的方法,需要使用标记的训练数据来训练预测模型,这在实践中可能并不容易获得。此外,尚不清楚 ANN 方法是否可推广,因为它仅在几个小数据集上进行评估。在本文中,我们提出了一种基于 PageRank 的无监督方法来优先考虑文档工作。这种方法仅根据项目中模块之间的依赖关系来识别“重要”模块。因此,PageRank 方法不需要任何训练数据来构建预测模型。为了评估 PageRank 方法的有效性,除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。为了评估 PageRank 方法的有效性,除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。为了评估 PageRank 方法的有效性,除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。除了先前研究中使用的从开源项目收集的相同数据集之外,我们还使用了六个额外的大型数据集来进行实验。实验结果表明,PageRank 方法在为文档工作确定重要模块的优先级方面优于最先进的 ANN 方法。特别是,由于其简单性和有效性,我们主张将 PageRank 方法用作未来文档工作优先级研究中易于实施的基线,并且任何新方法都应与其进行比较以证明其有效性。