A Training Module for Reproducible Data Science Research

可重复数据科学研究的培训模块

基本信息

  • 批准号:
    10199242
  • 负责人:
  • 金额:
    $ 9.42万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-06-01 至 2024-05-31
  • 项目状态:
    已结题

项目摘要

Abstract Scientific progress depends on the ability of scientists to communicate the details of their investigations, allowing others to learn new techniques and procedures and to critically review the process leading to any significant findings. However, this foundational aspect of the scientific process faces significant challenges. Rapid advances in computing technology have led to high-throughput data collection coupled with the application of complex statistical algorithms for data analysis. As a result, it has become nearly impossible to describe the scientific process precisely using traditional methods of communication. Compounding the problem of communicating data analytic complexity is the inability of traditional educational programs to keep up with technological and methodological changes. The shortage of data analytic skills and the corresponding lack of transparency regarding the scientific process is at the very core of the reproducibility and replication crisis in science today. In order to address the problem of scientific irreproducibility, training is needed in the fundamental aspects of good data analysis and reproducible research. Such training needs to go beyond traditional approaches which focus on developing a toolbox of statistical methods. While knowledge of tools and their properties is necessary for good data analysis, it is far from sufficient. Additional knowledge is required to combine those tools to produce a sound data analysis in a transparent manner. Furthermore, we must go beyond traditional methods of classroom learning in order to reach the entire scientific workforce. We will build training modules for improving data science research by leveraging recent work done by members of the Johns Hopkins Data Science Lab. We will focus on two primary tracks: (1) strategies for reproducible data science, which include the higher-level principles for designing good data analyses, recognizing poor data analysis, and providing a proper critique of a data analysis; and (2) technologies and workflows, which cover the software tools for doing data analysis in a reproducible, distributable, and reusable manner. The materials developed in this project will supplement traditional training programs in biomedical data science fields and will be made entirely open source for others to use and adapt.
抽象的 科学进步取决于科学家交流其研究细节的能力 调查,让其他人学习新技术和程序并进行批判性审查 导致任何重大发现的过程。然而,这一基本方面 科学进程面临重大挑战。计算技术的快速进步引领 高通量数据收集以及复杂统计的应用 数据分析算法。结果,几乎不可能描述 科学过程精确地使用传统的通信方法。复合化 传达数据分析复杂性的问题是传统教育的无能 计划以跟上技术和方法的变化。数据短缺 分析技能以及相应的科学过程缺乏透明度的问题 当今科学的可重复性和可重复性危机的核心。为了解决 由于科学不可重复性问题,需要在良好的基本方面进行培训 数据分析和可重复的研究。这种培训需要超越传统的 侧重于开发统计方法工具箱的方法。虽然知识 工具及其属性对于良好的数据分析来说是必要的,但这还远远不够。额外的 需要知识来结合这些工具,以透明的方式进行可靠的数据分析。 方式。此外,我们必须超越传统的课堂学习方法, 覆盖整个科学队伍。我们将构建用于改进数据科学的培训模块 利用约翰霍普金斯大学数据科学实验室成员最近完成的工作进行研究。 我们将重点关注两个主要轨道:(1)可重复数据科学的策略,其中包括 设计良好数据分析、识别不良数据分析的更高层次原则,以及 对数据分析提供适当的批评; (2) 技术和工作流程,包括 以可重复、可分发和可重用的方式进行数据分析的软件工具。 该项目开发的材料将补充传统培训项目 生物医学数据科学领域,并将完全开源供其他人使用和 适应。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

ROGER PENG其他文献

ROGER PENG的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('ROGER PENG', 18)}}的其他基金

NIH R25 - A Training Module for Reproducible Data Science Research
NIH R25 - 可重复数据科学研究的培训模块
  • 批准号:
    10807490
  • 财政年份:
    2021
  • 资助金额:
    $ 9.42万
  • 项目类别:
A Training Module for Reproducible Data Science Research
可重复数据科学研究的培训模块
  • 批准号:
    10409825
  • 财政年份:
    2021
  • 资助金额:
    $ 9.42万
  • 项目类别:
NIH R25 - A Training Module for Reproducible Data Science Research
NIH R25 - 可重复数据科学研究的培训模块
  • 批准号:
    10663171
  • 财政年份:
    2021
  • 资助金额:
    $ 9.42万
  • 项目类别:
Extreme Heat and Human Health: Characterizing Vulnerability in a Changing Climate
极端高温与人类健康:描述气候变化中的脆弱性
  • 批准号:
    8308530
  • 财政年份:
    2011
  • 资助金额:
    $ 9.42万
  • 项目类别:
Statistical Methods for Complex Enivronmental Health Data
复杂环境健康数据的统计方法
  • 批准号:
    8402810
  • 财政年份:
    2011
  • 资助金额:
    $ 9.42万
  • 项目类别:
Statistical Methods for Complex Enivronmental Health Data
复杂环境健康数据的统计方法
  • 批准号:
    8231319
  • 财政年份:
    2011
  • 资助金额:
    $ 9.42万
  • 项目类别:
Extreme Heat and Human Health: Characterizing Vulnerability in a Changing Climate
极端高温与人类健康:描述气候变化中的脆弱性
  • 批准号:
    8148057
  • 财政年份:
    2011
  • 资助金额:
    $ 9.42万
  • 项目类别:
Statistical Methods for Complex Enivronmental Health Data
复杂环境健康数据的统计方法
  • 批准号:
    8600272
  • 财政年份:
    2011
  • 资助金额:
    $ 9.42万
  • 项目类别:
Statistical Methods for Complex Enivronmental Health Data
复杂环境健康数据的统计方法
  • 批准号:
    8019720
  • 财政年份:
    2011
  • 资助金额:
    $ 9.42万
  • 项目类别:
Statistical Methods for Complex Enivronmental Health Data
复杂环境健康数据的统计方法
  • 批准号:
    8795714
  • 财政年份:
    2011
  • 资助金额:
    $ 9.42万
  • 项目类别:

相似国自然基金

区域品牌化过程与效应发生机制研究--基于多案例质性研究
  • 批准号:
    71862008
  • 批准年份:
    2018
  • 资助金额:
    28.0 万元
  • 项目类别:
    地区科学基金项目
空间关系约束的出行行为特征案例推理研究
  • 批准号:
    41701518
  • 批准年份:
    2017
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目
多要素耦合趋同的能源模型研究——基于中国农业的案例分析
  • 批准号:
    71603039
  • 批准年份:
    2016
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目
缔约共建——以滇中为重点案例调研区域的中国城市老旧社区再生发展模式研究
  • 批准号:
    51668024
  • 批准年份:
    2016
  • 资助金额:
    40.0 万元
  • 项目类别:
    地区科学基金项目
技术/知识异质性、学习场多元性与技术创新:三个产业空间的案例研究
  • 批准号:
    41501138
  • 批准年份:
    2015
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Mitigating the Impact of Stigma and Shame as a Barrier to Viral Suppression Among MSM Living with HIV and Substance Use Disorders
减轻耻辱感和羞耻感对感染艾滋病毒和药物滥用的 MSM 的病毒抑制造成的影响
  • 批准号:
    10683694
  • 财政年份:
    2023
  • 资助金额:
    $ 9.42万
  • 项目类别:
School-Partnered Collaborative Care (SPACE) for Pediatric Type 1 Diabetes
针对儿童 1 型糖尿病的学校合作协作护理 (SPACE)
  • 批准号:
    10640614
  • 财政年份:
    2023
  • 资助金额:
    $ 9.42万
  • 项目类别:
2/3 Akili: Phenotypic and genetic characterization of ADHD in Kenya and South Africa
2/3 Akili:肯尼亚和南非 ADHD 的表型和遗传特征
  • 批准号:
    10637187
  • 财政年份:
    2023
  • 资助金额:
    $ 9.42万
  • 项目类别:
Leptospira prevalence, cycling, and infection in the peridomestic environment
家庭周围环境中钩端螺旋体的流行、循环和感染
  • 批准号:
    10735030
  • 财政年份:
    2023
  • 资助金额:
    $ 9.42万
  • 项目类别:
Rigorous Research Principles for Practicing Neuroscientists
神经科学家的严格研究原则
  • 批准号:
    10721722
  • 财政年份:
    2023
  • 资助金额:
    $ 9.42万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了