当前位置: X-MOL 学术Empir. Software Eng. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
World of code: enabling a research workflow for mining and analyzing the universe of open source VCS data
Empirical Software Engineering ( IF 3.5 ) Pub Date : 2021-02-25 , DOI: 10.1007/s10664-020-09905-9
Yuxing Ma , Tapajit Dey , Chris Bogart , Sadika Amreen , Marat Valiev , Adam Tutko , David Kennard , Russell Zaretzki , Audris Mockus

Open source software (OSS) is essential for modern society and, while substantial research has been done on individual (typically central) projects, only a limited understanding of the periphery of the entire OSS ecosystem exists. For example, how are the tens of millions of projects in the periphery interconnected through technical dependencies, code sharing, or knowledge flow? To answer such questions we: a) create a very large and frequently updated collection of version control data in the entire FLOSS ecosystems named World of Code (WoC), that can completely cross-reference authors, projects, commits, blobs, dependencies, and history of the FLOSS ecosystems and b) provide capabilities to efficiently correct, augment, query, and analyze that data. Our current WoC implementation is capable of being updated on a monthly basis and contains over 18B Git objects. To evaluate its research potential and to create vignettes for its usage, we employ WoC in conducting several research tasks. In particular, we find that it is capable of supporting trend evaluation, ecosystem measurement, and the determination of package usage. We expect WoC to spur investigation into global properties of OSS development leading to increased resiliency of the entire OSS ecosystem. Our infrastructure facilitates the discovery of key technical dependencies, code flow, and social networks that provide the basis to determine the structure and evolution of the relationships that drive FLOSS activities and innovation.



中文翻译:

代码世界:启用研究工作流以挖掘和分析开源VCS数据的范围

开源软件(OSS)对于现代社会至关重要,尽管已对单个(通常是中央)项目进行了大量研究,但对整个OSS生态系统外围的了解有限。例如,外围的数千万个项目如何通过技术依赖性,代码共享或知识流相互连接?为了回答此类问题,我们:a)在名为FCC的整个FLOSS生态系统中创建一个非常庞大且经常更新的版本控制数据集合,这些生态系统可以完全交叉引用作者,项目,提交,blob,依赖项和FLOSS生态系统的历史和b)提供有效纠正,扩充,查询和分析该数据的能力。我们当前的WoC实施能够每月进行更新,并且包含超过18B个Git对象。为了评估其研究潜力并创建其使用的渐晕,我们聘用了WoC来执行多项研究任务。特别是,我们发现它能够支持趋势评估,生态系统测量以及确定包装使用情况。我们希望WoC能够刺激对OSS开发的全球属性的调查,从而提高整个OSS生态系统的弹性。我们的基础架构可促进关键技术依存关系,代码流和社交网络的发现,这些基础为确定推动FLOSS活动和创新的关系的结构和演化提供了基础。我们聘用WoC进行多项研究任务。特别是,我们发现它能够支持趋势评估,生态系统测量以及确定包装使用情况。我们希望WoC能够刺激对OSS开发的全球属性的调查,从而提高整个OSS生态系统的弹性。我们的基础架构可促进关键技术依存关系,代码流和社交网络的发现,这些基础为确定推动FLOSS活动和创新的关系的结构和演化提供了基础。我们聘用WoC进行多项研究任务。特别是,我们发现它能够支持趋势评估,生态系统测量以及确定包装使用情况。我们希望WoC能够刺激对OSS开发的全球属性的调查,从而提高整个OSS生态系统的弹性。我们的基础架构可促进关键技术依存关系,代码流和社交网络的发现,这些基础为确定推动FLOSS活动和创新的关系的结构和演化提供了基础。我们希望WoC能够刺激对OSS开发的全球属性的调查,从而提高整个OSS生态系统的弹性。我们的基础架构可促进关键技术依存关系,代码流和社交网络的发现,这些基础为确定推动FLOSS活动和创新的关系的结构和演化提供了基础。我们希望WoC能够刺激对OSS开发的全球属性的调查,从而提高整个OSS生态系统的弹性。我们的基础架构可促进关键技术依存关系,代码流和社交网络的发现,这些基础为确定推动FLOSS活动和创新的关系的结构和演化提供了基础。

更新日期:2021-02-25
down
wechat
bug