当前位置: X-MOL 学术arXiv.cs.SE › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Data Science Methodologies: Current Challenges and Future Approaches
arXiv - CS - Software Engineering Pub Date : 2021-06-14 , DOI: arxiv-2106.07287
Iñigo Martinez, Elisabeth Viles, Igor G. Olaizola

Data science has employed great research efforts in developing advanced analytics, improving data models and cultivating new algorithms. However, not many authors have come across the organizational and socio-technical challenges that arise when executing a data science project: lack of vision and clear objectives, a biased emphasis on technical issues, a low level of maturity for ad-hoc projects and the ambiguity of roles in data science are among these challenges. Few methodologies have been proposed on the literature that tackle these type of challenges, some of them date back to the mid-1990, and consequently they are not updated to the current paradigm and the latest developments in big data and machine learning technologies. In addition, fewer methodologies offer a complete guideline across team, project and data & information management. In this article we would like to explore the necessity of developing a more holistic approach for carrying out data science projects. We first review methodologies that have been presented on the literature to work on data science projects and classify them according to the their focus: project, team, data and information management. Finally, we propose a conceptual framework containing general characteristics that a methodology for managing data science projects with a holistic point of view should have. This framework can be used by other researchers as a roadmap for the design of new data science methodologies or the updating of existing ones.

中文翻译:

数据科学方法:当前的挑战和未来的方法

数据科学在开发高级分析、改进数据模型和培养新算法方面投入了大量研究工作。然而,很少有作者遇到执行数据科学项目时出现的组织和社会技术挑战:缺乏远见和明确的目标、对技术问题的偏重强调、临时项目的成熟度低以及数据科学中角色的模糊性就是这些挑战之一。很少有文献提出解决这些类型挑战的方法,其中一些可以追溯到 1990 年中期,因此它们没有更新到当前范式以及大数据和机器学习技术的最新发展。此外,提供跨团队、项目和数据与信息管理的完整指南的方法较少。在本文中,我们想探讨为开展数据科学项目开发​​一种更全面的方法的必要性。我们首先回顾文献中提出的数据科学项目的方法论,并根据它们的重点对它们进行分类:项目、团队、数据和信息管理。最后,我们提出了一个概念框架,其中包含从整体角度管理数据科学项目的方法应具备的一般特征。该框架可以被其他研究人员用作设计新数据科学方法或更新现有方法的路线图。我们首先回顾文献中提出的数据科学项目的方法论,并根据它们的重点对它们进行分类:项目、团队、数据和信息管理。最后,我们提出了一个概念框架,其中包含从整体角度管理数据科学项目的方法应具备的一般特征。该框架可以被其他研究人员用作设计新数据科学方法或更新现有方法的路线图。我们首先回顾文献中提出的数据科学项目的方法论,并根据它们的重点对它们进行分类:项目、团队、数据和信息管理。最后,我们提出了一个概念框架,其中包含从整体角度管理数据科学项目的方法应具备的一般特征。该框架可以被其他研究人员用作设计新数据科学方法或更新现有方法的路线图。
更新日期:2021-06-15
down
wechat
bug