当前位置: X-MOL 学术Proc. Natl. Acad. Sci. U.S.A. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Veridical data science.
Proceedings of the National Academy of Sciences of the United States of America ( IF 9.4 ) Pub Date : 2020-02-13 , DOI: 10.1073/pnas.1901326117
Bin Yu 1, 2, 3, 4 , Karl Kumbier 5
Affiliation  

Building and expanding on principles of statistics, machine learning, and scientific inquiry, we propose the predictability, computability, and stability (PCS) framework for veridical data science. Our framework, composed of both a workflow and documentation, aims to provide responsible, reliable, reproducible, and transparent results across the data science life cycle. The PCS workflow uses predictability as a reality check and considers the importance of computation in data collection/storage and algorithm design. It augments predictability and computability with an overarching stability principle. Stability expands on statistical uncertainty considerations to assess how human judgment calls impact data results through data and model/algorithm perturbations. As part of the PCS workflow, we develop PCS inference procedures, namely PCS perturbation intervals and PCS hypothesis testing, to investigate the stability of data results relative to problem formulation, data cleaning, modeling decisions, and interpretations. We illustrate PCS inference through neuroscience and genomics projects of our own and others. Moreover, we demonstrate its favorable performance over existing methods in terms of receiver operating characteristic (ROC) curves in high-dimensional, sparse linear model simulations, including a wide range of misspecified models. Finally, we propose PCS documentation based on R Markdown or Jupyter Notebook, with publicly available, reproducible codes and narratives to back up human choices made throughout an analysis. The PCS workflow and documentation are demonstrated in a genomics case study available on Zenodo.

中文翻译:

垂直数据科学。

基于统计,机器学习和科学探究的原理,并在此基础上进行扩展,我们提出了用于数据数据科学的可预测性,可计算性和稳定性(PCS)框架。我们的框架由工作流和文档组成,旨在在整个数据科学生命周期中提供负责任,可靠,可重现和透明的结果。PCS工作流使用可预测性作为现实检查,并考虑了计算在数据收集/存储和算法设计中的重要性。它以总体稳定性原则增强了可预测性和可计算性。稳定性扩展了对统计不确定性的考虑,以通过数据和模型/算法扰动来评估人类的判断如何影响数据结果。作为PCS工作流程的一部分,我们开发了PCS推理程序,即PCS扰动间隔和PCS假设检验,以研究数据结果相对于问题表述,数据清理,建模决策和解释的稳定性。我们通过我们自己和他人的神经科学和基因组学项目说明了PCS推理。此外,我们在高维,稀疏线性模型仿真(包括各种错误指定的模型)中的接收器工作特性(ROC)曲线方面证明了其优于现有方法的性能。最后,我们建议基于R Markdown或Jupyter Notebook的PCS文档,以及可公开获得的,可复制的代码和叙述,以支持整个分析过程中人为选择的内容。Zenodo上的基因组案例研究演示了PCS工作流程和文档。调查与问题表述,数据清理,建模决策和解释相关的数据结果的稳定性。我们通过我们自己和他人的神经科学和基因组学项目说明了PCS推理。此外,我们在高维,稀疏线性模型仿真(包括各种错误指定的模型)中的接收器工作特性(ROC)曲线方面证明了其优于现有方法的性能。最后,我们建议基于R Markdown或Jupyter Notebook的PCS文档,以及可公开获得的,可复制的代码和叙述,以支持整个分析过程中人为选择的内容。Zenodo上的基因组案例研究演示了PCS工作流程和文档。调查与问题表述,数据清理,建模决策和解释相关的数据结果的稳定性。我们通过自己和他人的神经科学和基因组学项目说明了PCS推理。此外,我们在高维,稀疏线性模型仿真(包括各种错误指定的模型)中的接收器工作特性(ROC)曲线方面证明了其优于现有方法的性能。最后,我们建议基于R Markdown或Jupyter Notebook的PCS文档,以及可公开获得的,可复制的代码和叙述,以支持整个分析过程中人为选择的内容。Zenodo上的基因组案例研究演示了PCS工作流程和文档。和解释。我们通过自己和他人的神经科学和基因组学项目说明了PCS推理。此外,我们在高维,稀疏线性模型仿真(包括各种错误指定的模型)中的接收器工作特性(ROC)曲线方面证明了其优于现有方法的性能。最后,我们建议基于R Markdown或Jupyter Notebook的PCS文档,以及可公开获得的,可复制的代码和叙述,以支持整个分析过程中人为选择的内容。Zenodo上的基因组案例研究演示了PCS工作流程和文档。和解释。我们通过我们自己和他人的神经科学和基因组学项目说明了PCS推理。此外,我们在高维,稀疏线性模型仿真(包括各种错误指定的模型)中的接收器工作特性(ROC)曲线方面证明了其优于现有方法的性能。最后,我们建议基于R Markdown或Jupyter Notebook的PCS文档,以及可公开获得的,可复制的代码和叙述,以支持整个分析过程中人为选择的内容。Zenodo上的基因组案例研究演示了PCS工作流程和文档。我们在高维,稀疏线性模型仿真(包括各种错误指定的模型)中的接收器工作特性(ROC)曲线方面证明了其优于现有方法的性能。最后,我们建议基于R Markdown或Jupyter Notebook的PCS文档,以及可公开获得的,可复制的代码和叙述,以支持整个分析过程中人为选择的内容。Zenodo上的基因组案例研究演示了PCS工作流程和文档。我们在高维,稀疏线性模型仿真(包括各种错误指定的模型)中的接收器工作特性(ROC)曲线方面证明了其优于现有方法的性能。最后,我们建议基于R Markdown或Jupyter Notebook的PCS文档,以及可公开获得的,可复制的代码和叙述,以支持整个分析过程中人为选择的内容。Zenodo上的基因组案例研究演示了PCS工作流程和文档。
更新日期:2020-02-26
down
wechat
bug