NIH R25 - A Training Module for Reproducible Data Science Research
NIH R25 - 可重复数据科学研究的培训模块
基本信息
- 批准号:10807490
- 负责人:
- 金额:$ 9.08万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-06-01 至 2024-05-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Abstract
Scientific progress depends on the ability of scientists to communicate the details of their
investigations, allowing others to learn new techniques and procedures and to critically review
the process leading to any significant findings. However, this foundational aspect of the
scientific process faces significant challenges. Rapid advances in computing technology have led
to high-throughput data collection coupled with the application of complex statistical
algorithms for data analysis. As a result, it has become nearly impossible to describe the
scientific process precisely using traditional methods of communication. Compounding the
problem of communicating data analytic complexity is the inability of traditional educational
programs to keep up with technological and methodological changes. The shortage of data
analytic skills and the corresponding lack of transparency regarding the scientific process is at
the very core of the reproducibility and replication crisis in science today. In order to address the
problem of scientific irreproducibility, training is needed in the fundamental aspects of good
data analysis and reproducible research. Such training needs to go beyond traditional
approaches which focus on developing a toolbox of statistical methods. While knowledge of
tools and their properties is necessary for good data analysis, it is far from sufficient. Additional
knowledge is required to combine those tools to produce a sound data analysis in a transparent
manner. Furthermore, we must go beyond traditional methods of classroom learning in order to
reach the entire scientific workforce. We will build training modules for improving data science
research by leveraging recent work done by members of the Johns Hopkins Data Science Lab.
We will focus on two primary tracks: (1) strategies for reproducible data science, which include
the higher-level principles for designing good data analyses, recognizing poor data analysis, and
providing a proper critique of a data analysis; and (2) technologies and workflows, which cover
the software tools for doing data analysis in a reproducible, distributable, and reusable manner.
The materials developed in this project will supplement traditional training programs in
biomedical data science fields and will be made entirely open source for others to use and
adapt.
抽象的
科学进步取决于科学家交流其研究细节的能力
调查,让其他人学习新技术和程序并进行批判性审查
导致任何重大发现的过程。然而,这一基本方面
科学进程面临重大挑战。计算技术的快速进步引领
高通量数据收集以及复杂统计的应用
数据分析算法。结果,几乎不可能描述
科学过程精确地使用传统的通信方法。复合化
传达数据分析复杂性的问题是传统教育的无能
计划以跟上技术和方法的变化。数据短缺
分析技能以及相应的科学过程缺乏透明度的问题
当今科学的可重复性和可重复性危机的核心。为了解决
由于科学不可重复性问题,需要在良好的基本方面进行培训
数据分析和可重复的研究。这种培训需要超越传统的
侧重于开发统计方法工具箱的方法。虽然知识
工具及其属性对于良好的数据分析来说是必要的,但这还远远不够。额外的
需要知识来结合这些工具,以透明的方式进行可靠的数据分析。
方式。此外,我们必须超越传统的课堂学习方法,
覆盖整个科学队伍。我们将构建用于改进数据科学的培训模块
利用约翰霍普金斯大学数据科学实验室成员最近完成的工作进行研究。
我们将重点关注两个主要轨道:(1)可重复数据科学的策略,其中包括
设计良好数据分析、识别不良数据分析的更高层次原则,以及
对数据分析提供适当的批评; (2) 技术和工作流程,包括
以可重复、可分发和可重用的方式进行数据分析的软件工具。
该项目开发的材料将补充传统培训项目
生物医学数据科学领域,并将完全开源供其他人使用和
适应。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
ROGER PENG其他文献
ROGER PENG的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('ROGER PENG', 18)}}的其他基金
A Training Module for Reproducible Data Science Research
可重复数据科学研究的培训模块
- 批准号:
10409825 - 财政年份:2021
- 资助金额:
$ 9.08万 - 项目类别:
A Training Module for Reproducible Data Science Research
可重复数据科学研究的培训模块
- 批准号:
10199242 - 财政年份:2021
- 资助金额:
$ 9.08万 - 项目类别:
NIH R25 - A Training Module for Reproducible Data Science Research
NIH R25 - 可重复数据科学研究的培训模块
- 批准号:
10663171 - 财政年份:2021
- 资助金额:
$ 9.08万 - 项目类别:
Extreme Heat and Human Health: Characterizing Vulnerability in a Changing Climate
极端高温与人类健康:描述气候变化中的脆弱性
- 批准号:
8308530 - 财政年份:2011
- 资助金额:
$ 9.08万 - 项目类别:
Statistical Methods for Complex Enivronmental Health Data
复杂环境健康数据的统计方法
- 批准号:
8402810 - 财政年份:2011
- 资助金额:
$ 9.08万 - 项目类别:
Statistical Methods for Complex Enivronmental Health Data
复杂环境健康数据的统计方法
- 批准号:
8231319 - 财政年份:2011
- 资助金额:
$ 9.08万 - 项目类别:
Extreme Heat and Human Health: Characterizing Vulnerability in a Changing Climate
极端高温与人类健康:描述气候变化中的脆弱性
- 批准号:
8148057 - 财政年份:2011
- 资助金额:
$ 9.08万 - 项目类别:
Statistical Methods for Complex Enivronmental Health Data
复杂环境健康数据的统计方法
- 批准号:
8600272 - 财政年份:2011
- 资助金额:
$ 9.08万 - 项目类别:
Statistical Methods for Complex Enivronmental Health Data
复杂环境健康数据的统计方法
- 批准号:
8019720 - 财政年份:2011
- 资助金额:
$ 9.08万 - 项目类别:
Statistical Methods for Complex Enivronmental Health Data
复杂环境健康数据的统计方法
- 批准号:
8795714 - 财政年份:2011
- 资助金额:
$ 9.08万 - 项目类别:
相似海外基金
NIH R25 - A Training Module for Reproducible Data Science Research
NIH R25 - 可重复数据科学研究的培训模块
- 批准号:
10663171 - 财政年份:2021
- 资助金额:
$ 9.08万 - 项目类别:
Implementation Research Training Program in Cancer Prevention and Control
实施癌症预防和控制研究培训计划
- 批准号:
9070416 - 财政年份:2014
- 资助金额:
$ 9.08万 - 项目类别:
Implementation Research Training Program in Cancer Prevention and Control
实施癌症预防和控制研究培训计划
- 批准号:
8608335 - 财政年份:2014
- 资助金额:
$ 9.08万 - 项目类别:
Implementation Research Training Program in Cancer Prevention and Control
实施癌症预防和控制研究培训计划
- 批准号:
9278124 - 财政年份:2014
- 资助金额:
$ 9.08万 - 项目类别: