当前位置: X-MOL 学术arXiv.cs.MS › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
An Empirical Analysis of the R Package Ecosystem
arXiv - CS - Mathematical Software Pub Date : 2021-02-19 , DOI: arxiv-2102.09904
Ethan Bommarito, Michael J Bommarito II

In this research, we present a comprehensive, longitudinal empirical summary of the R package ecosystem, including not just CRAN, but also Bioconductor and GitHub. We analyze more than 25,000 packages, 150,000 releases, and 15 million files across two decades, providing comprehensive counts and trends for common metrics across packages, releases, authors, licenses, and other important metadata. We find that the historical growth of the ecosystem has been robust under all measures, with a compound annual growth rate of 29% for active packages, 28% for new releases, and 26% for active maintainers. As with many similar social systems, we find a number of highly right-skewed distributions with practical implications, including the distribution of releases per package, packages and releases per author or maintainer, package and maintainer dependency in-degree, and size per package and release. For example, the top five packages are imported by nearly 25% of all packages, and the top ten maintainers support packages that are imported by over half of all packages. We also highlight the dynamic nature of the ecosystem, recording both dramatic acceleration and notable deceleration in the growth of R. From a licensing perspective, we find a notable majority of packages are distributed under copyleft licensing or omit licensing information entirely. The data, methods, and calculations herein provide an anchor for public discourse and industry decisions related to R and CRAN, serving as a foundation for future research on the R software ecosystem and "data science" more broadly.

中文翻译:

R Package生态系统的实证分析

在这项研究中,我们提供了R包生态系统的全面,纵向的经验总结,不仅包括CRAN,还包括Bioconductor和GitHub。在过去的20年中,我们分析了25,000多个软件包,150,000个发行版和1,500万个文件,提供了跨软件包,发行版,作者,许可证和其他重要元数据的通用指标的全面计数和趋势。我们发现,在所有指标下,生态系统的历史增长都是强劲的,主动软件包的复合年增长率为29%,新版本的复合年增长率为28%,主动维护者的复合年增长率为26%。与许多类似的社会系统一样,我们发现许多高度偏斜的发行版具有实际意义,包括每个软件包的发行版,每个作者或维护者的软件包和发行版,程序包和维护程序的依存度,以及每个程序包和发行版的大小。例如,排名前五的软件包几乎占所有软件包的25%,而排名前十的维护者支持的软件包占一半以上。我们还强调了生态系统的动态性质,记录了R的增长过程中的急剧加速和明显减速。从许可的角度来看,我们发现相当多的软件包是在copyleft许可下分发的,或者完全省略了许可信息。本文中的数据,方法和计算为有关R和CRAN的公共讨论和行业决策提供了依据,为将来更广泛地研究R软件生态系统和“数据科学”奠定了基础。排名前五的软件包几乎占所有软件包的25%,而排名前十的维护者支持的软件包占一半以上。我们还强调了生态系统的动态性质,记录了R的增长过程中的急剧加速和明显减速。从许可的角度来看,我们发现相当多的软件包是在copyleft许可下分发的,或者完全省略了许可信息。本文中的数据,方法和计算为有关R和CRAN的公共讨论和行业决策提供了依据,为将来更广泛地研究R软件生态系统和“数据科学”奠定了基础。前五名软件包的导入量占所有软件包的近25%,前十名维护者支持的软件包中的一半以上被导入。我们还强调了生态系统的动态性质,记录了R的增长过程中的急剧加速和明显减速。从许可的角度来看,我们发现相当多的软件包是在copyleft许可下分发的,或者完全省略了许可信息。本文中的数据,方法和计算为有关R和CRAN的公共讨论和行业决策提供了依据,为将来更广泛地研究R软件生态系统和“数据科学”奠定了基础。我们还强调了生态系统的动态性质,记录了R的增长过程中的急剧加速和明显减速。从许可的角度来看,我们发现相当多的软件包是在copyleft许可下分发的,或者完全省略了许可信息。本文中的数据,方法和计算为有关R和CRAN的公共讨论和行业决策提供了依据,为将来更广泛地研究R软件生态系统和“数据科学”奠定了基础。我们还强调了生态系统的动态性质,记录了R的增长过程中的急剧加速和明显减速。从许可的角度来看,我们发现相当多的软件包是在copyleft许可下分发的,或者完全省略了许可信息。本文中的数据,方法和计算为有关R和CRAN的公共讨论和行业决策提供了依据,为将来更广泛地研究R软件生态系统和“数据科学”奠定了基础。
更新日期:2021-02-22
down
wechat
bug