RII Track-4: NSF: Extracting Pan Genomic Information from Metagenomic Data: Distributed Algorithms and Scalable Software

RII Track-4:NSF:从宏基因组数据中提取泛基因组信息:分布式算法和可扩展软件

基本信息

  • 批准号:
    2327456
  • 负责人:
  • 金额:
    $ 29.21万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2024
  • 资助国家:
    美国
  • 起止时间:
    2024-01-01 至 2025-12-31
  • 项目状态:
    未结题

项目摘要

The analysis of metagenomes, i.e., genetic data collected directly from environmental samples, has become integral to various research areas, including climate studies, human health, the discovery of rare earth elements, social and environmental resilience planning, and more. Genetic data collected in this manner typically contains a mixed population of multiple microbial communities. Scientists often aim to extract and represent the genomic diversity information of a particular microbial species from such a mixed population, a process known as pan-genomic information representation. However, there is a shortage of theoretically sound and biologically valid algorithms capable of performing metagenomic or pan-genomic analysis. Furthermore, the vast amount of genetic data generated by high-throughput genome sequencing machines necessitates that these algorithms be scalable and distributed in nature. This project will investigate both the distributed algorithmic aspect and its practical implementation to extract pan-genomic information from large-scale metagenomic datasets. This research aligns with at least six different research areas prioritized by Alaska EPSCoR in their latest Science and Technology Plan, including Community Resilience, Resource Extraction, Food-Energy-Water Nexus, Renewable Resources, Environmental Monitoring, and One Health.This RII Track-4: NSF fellowship will enable an Assistant Professor and a graduate student at the University of Alaska Fairbanks (UAF) to collaborate with scientists at North Carolina State University (NCSU) and utilize their resources. The Principal Investigator (PI) will work alongside experts in the field of bioinformatics and algorithms to develop a set of provably correct, scalable, and distributed algorithms with low time complexity for extracting pan-genomic information from large-scale metagenomic datasets. Additionally, utilizing cutting-edge high-performance computing (HPC) resources at NCSU, the PI aims to create a preliminary version of an HPC-compliant software framework implementing these algorithms. The analytic pipeline comprises four distinct stages: 1) metagenomic error correction, 2) metagenomic assembly, 3) binning and annotation of the assembled genome, and 4) creating the pan-genomic profile of the available microbes. Each of these stages presents algorithmic challenges. The diverse coverages of microbiomes in the metagenomic dataset, coupled with instrumental errors, render the process of identifying the actual species and their genetic diversity exceedingly challenging, necessitating extensive research in string matching and graph analysis. The distributed software implementation must address numerous HPC challenges. The research outcomes, including publications and open-source codebases, will support multiple research activities at UAF, focusing on arctic climate change, arctic marine biology, Alaska Native health, among others. The collaboration facilitated by this fellowship will also lay the foundation for an interdisciplinary Ph.D. program at UAF, encompassing computer science, bioinformatics, and indigenous science concentrations.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
宏基因组的分析,即直接从环境样本收集的遗传数据,已成为各种研究领域的组成部分,包括气候研究,人类健康,发现稀土元素,社会和环境弹性计划等等。以这种方式收集的遗传数据通常包含多个微生物群落的混合群体。科学家通常旨在从这种混合人群中提取和代表特定微生物物种的基因组多样性信息,这一过程称为泛基因组信息表示。但是,理论上声音和生物学上有效的算法短缺,能够进行元基因组或泛基因组分析。此外,高通量基因组测序机产生的大量遗传数据必须使这些算法具有可扩展性并分布在本质上。该项目将研究分布式算法方面及其实际实施,以从大规模元基因组数据集中提取泛基因组信息。这项研究与阿拉斯加Epscor在其最新的科学技术计划中优先列出至少六个不同的研究领域,包括社区复原力,资源提取,食品能量 - 水联系关系,可再生资源,环境监测,环境监测和一项健康。卡罗来纳州立大学(NCSU)并利用其资源。首席研究员(PI)将与生物信息学和算法领域的专家一起工作,以开发一组具有较低时间复杂性的可证明正确,可扩展和分布式算法,以从大规模的元基因组数据集中提取泛基因组信息。此外,利用NCSU的尖端高性能计算(HPC)资源,PI旨在创建实施这些算法的符合HPC兼容软件框架的初步版本。分析管道包括四个不同的阶段:1)元基因组误差校正,2)元基因组组件,3)组装基因组的嵌合和注释,以及4)创建可用微生物的泛基因组谱。这些阶段中的每个阶段都提出了算法挑战。宏基因组数据集中微生物组的各种覆盖范围,再加上工具误差,使识别实际物种及其遗传多样性的过程极具挑战性,需要在弦乐匹配和图形分析中进行广泛的研究。分布式软件实施必须应对许多HPC挑战。包括出版物和开源代码库在内的研究成果将支持UAF的多个研究活动,重点关注北极气候变化,北极海洋生物学,阿拉斯加原生健康。该奖学金所促进的合作还将为跨学科博士学位奠定基础。 UAF的计划,包括计算机科学,生物信息学和土著科学的集中度。该奖项反映了NSF的法定任务,并且使用基金会的知识分子优点和更广泛的影响审查标准,被认为值得通过评估来获得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Arghya Das其他文献

Asymptotically flat vacuum solution for a rotating black hole in a modified gravity theory
修正引力理论中旋转黑洞的渐近平坦真空解
  • DOI:
    10.1140/epjc/s10052-022-10899-5
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Arghya Das;B. Mukhopadhyay
  • 通讯作者:
    B. Mukhopadhyay
An advanced pore-scale model for simulating water retention characteristics in granular soils
用于模拟粒状土壤保水特性的先进孔隙尺度模型
  • DOI:
    10.1016/j.jhydrol.2022.128561
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    6.4
  • 作者:
    Suaiba Mufti;Arghya Das
  • 通讯作者:
    Arghya Das
Mucormycosis and black fungus: Breaking the myth.
毛霉菌病和黑木耳:打破神话。
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    4.9
  • 作者:
    A. Vidyarthi;Arghya Das;R. Chaudhry
  • 通讯作者:
    R. Chaudhry
Evaluation of a simple method for testing aztreonam and ceftazidime-avibactam synergy in New Delhi metallo-beta-lactamase producing Enterobacterales
评估新德里产金属-β-内酰胺酶肠杆菌中氨曲南和头孢他啶-阿维巴坦协同作用的简单方法
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
    Salman Khan;Arghya Das;Deepali Vashisth;Anwita Mishra;A. Vidyarthi;Raghav Gupta;N. Begam;Babita Kataria;Sushma Bhatnagar
  • 通讯作者:
    Sushma Bhatnagar
Transport and fluctuations in mass aggregation processes: Mobility-driven clustering.
质量聚合过程中的传输和波动:移动驱动的聚类。
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    2.4
  • 作者:
    Subhadip Chakraborti;Tanmoy Chakraborty;Arghya Das;Rahul Dandekar;P. Pradhan
  • 通讯作者:
    P. Pradhan

Arghya Das的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Arghya Das', 18)}}的其他基金

Equipment: MRI Track-I: Acquisition of CyBR: Cyber Infrastructure for Big Data Research Critical for Alaska
设备: MRI Track-I:收购 CyBR:对阿拉斯加至关重要的大数据研究网络基础设施
  • 批准号:
    2320196
  • 财政年份:
    2023
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant

相似国自然基金

石羊河上游径流水源追踪量化的模拟研究
  • 批准号:
    42301153
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向复杂场景的说话人追踪关键技术研究
  • 批准号:
    62306029
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
单波段机载LiDAR测深的瞬时海面确定及光线追踪
  • 批准号:
    42304051
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
用户兴趣迁移现象下基于图神经网络的舆情追踪技术研究
  • 批准号:
    62302199
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于量子电压动态追踪补偿的精密磁通测量方法研究
  • 批准号:
    52307021
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

RII Track-4:NSF: Integrated Electrochemical-Optical Microscopy for High Throughput Screening of Electrocatalysts
RII Track-4:NSF:用于高通量筛选电催化剂的集成电化学光学显微镜
  • 批准号:
    2327025
  • 财政年份:
    2024
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: Resistively-Detected Electron Spin Resonance in Multilayer Graphene
RII Track-4:NSF:多层石墨烯中电阻检测的电子自旋共振
  • 批准号:
    2327206
  • 财政年份:
    2024
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: Improving subseasonal-to-seasonal forecasts of Central Pacific extreme hydrometeorological events and their impacts in Hawaii
RII Track-4:NSF:改进中太平洋极端水文气象事件的次季节到季节预报及其对夏威夷的影响
  • 批准号:
    2327232
  • 财政年份:
    2024
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: Design of zeolite-encapsulated metal phthalocyanines catalysts enabled by insights from synchrotron-based X-ray techniques
RII Track-4:NSF:通过基于同步加速器的 X 射线技术的见解实现沸石封装金属酞菁催化剂的设计
  • 批准号:
    2327267
  • 财政年份:
    2024
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: From the Ground Up to the Air Above Coastal Dunes: How Groundwater and Evaporation Affect the Mechanism of Wind Erosion
RII Track-4:NSF:从地面到沿海沙丘上方的空气:地下水和蒸发如何影响风蚀机制
  • 批准号:
    2327346
  • 财政年份:
    2024
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了