RII Track-4: NSF: Extracting Pan Genomic Information from Metagenomic Data: Distributed Algorithms and Scalable Software

RII Track-4:NSF:从宏基因组数据中提取泛基因组信息:分布式算法和可扩展软件

基本信息

  • 批准号:
    2327456
  • 负责人:
  • 金额:
    $ 29.21万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2024
  • 资助国家:
    美国
  • 起止时间:
    2024-01-01 至 2025-12-31
  • 项目状态:
    未结题

项目摘要

The analysis of metagenomes, i.e., genetic data collected directly from environmental samples, has become integral to various research areas, including climate studies, human health, the discovery of rare earth elements, social and environmental resilience planning, and more. Genetic data collected in this manner typically contains a mixed population of multiple microbial communities. Scientists often aim to extract and represent the genomic diversity information of a particular microbial species from such a mixed population, a process known as pan-genomic information representation. However, there is a shortage of theoretically sound and biologically valid algorithms capable of performing metagenomic or pan-genomic analysis. Furthermore, the vast amount of genetic data generated by high-throughput genome sequencing machines necessitates that these algorithms be scalable and distributed in nature. This project will investigate both the distributed algorithmic aspect and its practical implementation to extract pan-genomic information from large-scale metagenomic datasets. This research aligns with at least six different research areas prioritized by Alaska EPSCoR in their latest Science and Technology Plan, including Community Resilience, Resource Extraction, Food-Energy-Water Nexus, Renewable Resources, Environmental Monitoring, and One Health.This RII Track-4: NSF fellowship will enable an Assistant Professor and a graduate student at the University of Alaska Fairbanks (UAF) to collaborate with scientists at North Carolina State University (NCSU) and utilize their resources. The Principal Investigator (PI) will work alongside experts in the field of bioinformatics and algorithms to develop a set of provably correct, scalable, and distributed algorithms with low time complexity for extracting pan-genomic information from large-scale metagenomic datasets. Additionally, utilizing cutting-edge high-performance computing (HPC) resources at NCSU, the PI aims to create a preliminary version of an HPC-compliant software framework implementing these algorithms. The analytic pipeline comprises four distinct stages: 1) metagenomic error correction, 2) metagenomic assembly, 3) binning and annotation of the assembled genome, and 4) creating the pan-genomic profile of the available microbes. Each of these stages presents algorithmic challenges. The diverse coverages of microbiomes in the metagenomic dataset, coupled with instrumental errors, render the process of identifying the actual species and their genetic diversity exceedingly challenging, necessitating extensive research in string matching and graph analysis. The distributed software implementation must address numerous HPC challenges. The research outcomes, including publications and open-source codebases, will support multiple research activities at UAF, focusing on arctic climate change, arctic marine biology, Alaska Native health, among others. The collaboration facilitated by this fellowship will also lay the foundation for an interdisciplinary Ph.D. program at UAF, encompassing computer science, bioinformatics, and indigenous science concentrations.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
宏基因组(即直接从环境样本中收集的遗传数据)的分析已成为各种研究领域不可或缺的一部分,包括气候研究、人类健康、稀土元素的发现、社会和环境复原力规划等。以这种方式收集的遗传数据通常包含多个微生物群落的混合群体。科学家通常旨在从这样的混合群体中提取并表示特定微生物物种的基因组多样性信息,这一过程称为泛基因组信息表示。然而,缺乏能够执行宏基因组或泛基因组分析的理论上合理且生物学上有效的算法。此外,高通量基因组测序机生成的大量遗传数据要求这些算法在本质上具有可扩展性和分布式性。该项目将研究分布式算法方面及其实际实现,以从大规模宏基因组数据集中提取泛基因组信息。这项研究与阿拉斯加 EPSCoR 在其最新科学技术计划中优先考虑的至少六个不同的研究领域相一致,包括社区复原力、资源开采、食物-能源-水关系、可再生资源、环境监测和同一个健康。这个 RII 轨道 - 4:NSF 奖学金将使阿拉斯加大学费尔班克斯分校 (UAF) 的助理教授和研究生能够与北卡罗来纳州立大学 (NCSU) 的科学家合作并利用他们的资源。首席研究员(PI)将与生物信息学和算法领域的专家合作,开发一套可证明正确、可扩展、时间复杂度低的分布式算法,用于从大规模宏基因组数据集中提取泛基因组信息。此外,利用 NCSU 的尖端高性能计算 (HPC) 资源,PI 旨在创建实现这些算法的 HPC 兼容软件框架的初步版本。分析流程包括四个不同的阶段:1)宏基因组错误校正,2)宏基因组组装,3)组装基因组的分箱和注释,以及4)创建可用微生物的泛基因组图谱。每个阶段都面临着算法挑战。宏基因组数据集中微生物组的多样化覆盖,加上仪器误差,使得识别实际物种及其遗传多样性的过程变得极具挑战性,需要在字符串匹配和图形分析方面进行广泛的研究。分布式软件实施必须解决众多 HPC 挑战。研究成果,包括出版物和开源代码库,将支持 UAF 的多项研究活动,重点关注北极气候变化、北极海洋生物学、阿拉斯加原住民健康等。该奖学金促进的合作也将为跨学科博士学位奠定基础。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Arghya Das其他文献

26-28--hook worm varanasi revised short comm JCD
26-28--hook蠕虫瓦拉纳西修订版短通讯JCD
  • DOI:
    10.15252/embj.2020104858
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Arghya Das;Tuhina;Banerjee
  • 通讯作者:
    Banerjee
Mucormycosis and black fungus: Breaking the myth.
毛霉菌病和黑木耳:打破神话。
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    4.9
  • 作者:
    A. Vidyarthi;Arghya Das;R. Chaudhry
  • 通讯作者:
    R. Chaudhry
Evaluation of a simple method for testing aztreonam and ceftazidime-avibactam synergy in New Delhi metallo-beta-lactamase producing Enterobacterales
评估新德里产金属-β-内酰胺酶肠杆菌中氨曲南和头孢他啶-阿维巴坦协同作用的简单方法
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
    Salman Khan;Arghya Das;Deepali Vashisth;Anwita Mishra;A. Vidyarthi;Raghav Gupta;N. Begam;Babita Kataria;Sushma Bhatnagar
  • 通讯作者:
    Sushma Bhatnagar
Transport and fluctuations in mass aggregation processes: Mobility-driven clustering.
质量聚合过程中的传输和波动:移动驱动的聚类。
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    2.4
  • 作者:
    Subhadip Chakraborti;Tanmoy Chakraborty;Arghya Das;Rahul Dandekar;P. Pradhan
  • 通讯作者:
    P. Pradhan
Designing New Magic Bullets to Penetrate the Mycobacterial Shield: An Arduous Quest for Promising Therapeutic Candidates.
设计新的神奇子弹来穿透分枝杆菌盾牌:对有前途的治疗候选者的艰巨探索。
  • DOI:
    10.1089/mdr.2021.0441
  • 发表时间:
    2023-04-04
  • 期刊:
  • 影响因子:
    2.6
  • 作者:
    Anwita Mishra;Arghya Das;T. Banerjee
  • 通讯作者:
    T. Banerjee

Arghya Das的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Arghya Das', 18)}}的其他基金

Equipment: MRI Track-I: Acquisition of CyBR: Cyber Infrastructure for Big Data Research Critical for Alaska
设备: MRI Track-I:收购 CyBR:对阿拉斯加至关重要的大数据研究网络基础设施
  • 批准号:
    2320196
  • 财政年份:
    2023
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant

相似国自然基金

面向小样本教育场景的学生知识追踪方法研究
  • 批准号:
    62307006
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
多精度目标追踪的多模态统一模型
  • 批准号:
    62302328
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
三维黏弹性TTI介质中地震射线追踪及走时成像方法研究
  • 批准号:
    42304060
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于单像素探测的高速运动目标追踪与成像技术研究
  • 批准号:
    62305144
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
前额叶及其脑网络在儿童共情发展中的作用:计算建模与追踪研究
  • 批准号:
    32371103
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

RII Track-4: NSF: Scalable MPI with Adaptive Compression for GPU-based Computing Systems
RII Track-4:NSF:适用于基于 GPU 的计算系统的具有自适应压缩的可扩展 MPI
  • 批准号:
    2327266
  • 财政年份:
    2024
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant
RII Track-4: NSF: Bio-inspired Solutions to Prevent Soil Erosion in Farmland and Scouring in Fluvial Regions
RII Track-4:NSF:防止农田水土流失和河流地区冲刷的仿生解决方案
  • 批准号:
    2327384
  • 财政年份:
    2024
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: Spatiotemporal Modeling of Lithium-ion Battery Packs for Electric Vehicle Battery Management Systems
RII Track-4:NSF:电动汽车电池管理系统锂离子电池组的时空建模
  • 批准号:
    2327409
  • 财政年份:
    2024
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: HEAL: Heterogeneity-aware Efficient and Adaptive Learning at Clusters and Edges
RII Track-4:NSF:HEAL:集群和边缘的异质性感知高效自适应学习
  • 批准号:
    2327452
  • 财政年份:
    2024
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant
RII Track-4: NSF: Advancing High Density and High Operation Temperature Traction Inverter by Gallium Oxide Packaged Power Module
RII Track-4:NSF:通过氧化镓封装功率模块推进高密度和高工作温度牵引逆变器
  • 批准号:
    2327474
  • 财政年份:
    2024
  • 资助金额:
    $ 29.21万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了