AF: Medium: Collaborative Research: Sequential and Parallel Algorithms for Approximate Sequence Matching with Applications to Computational Biology

AF:媒介:协作研究:近似序列匹配的顺序和并行算法及其在计算生物学中的应用

基本信息

  • 批准号:
    1704552
  • 负责人:
  • 金额:
    $ 52.5万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-07-01 至 2022-06-30
  • 项目状态:
    已结题

项目摘要

Sequence matching problems are central to the field of genomics, both in analyzing naturally occurring sequences such as genomes and in analyzing data from sequencing instruments. Often, methods that can accommodate a small number of differences within the matching regions suffice in practice. Such methods, described as alignment-free or approximate sequence matching methods, have typically relied on heuristics. This project work is advancing the field by creating a mathematical framework and solving multiple approximate sequence matching problems with provably efficient run-time guarantees. Project work is also supporting the development of practical heuristics inspired and supported by the mathematical framework, development of parallel methods for solving large-scale problems on high performance parallel computers, and studying the impact of these methods on important applications. Project results are made available through open source software for use by practitioners. Results from this research will be incorporated into courses taught by the PIs, and disseminated more broadly through book chapters and tutorials and accompanying slides. The project will support research scientist and Ph.D. students in interdisciplinary training for launching them into productive careers focused on important problems of current relevance. Undergraduate participation is planned through course projects.Project work builds upon recent progress in alignment-free genome comparison methods, and exploits the controlled error characteristics of data generated by high-throughput sequencers, and the many bioinformatics applications enabled by them. Project objectives include developing a robust algorithmic framework for designing newer alignment-free methods based on approximate substring composition, and developing sequential and parallel algorithms for pairwise approximate sequence matching among large sequence data sets. The goal is to develop algorithms that are asymptotically superior to quadratic alignment-based approaches, and achieve good practical performance either directly or through further development of practical heuristic that rely on the underlying theory. The developed techniques will be further investigated in the context of important applications such as read error correction, genome mapping, and assembly. Though conducted in the context of computational biology, some of the methods are potentially applicable to other areas such as text processing and information retrieval. Broader research community will be impacted through release of software modules and project work in important application areas.
序列匹配问题是基因组学领域的核心,既在分析天然发生的序列(例如基因组)和分析测序仪器的数据中。通常,在实践中,可以适应匹配区域内少数差异的方法。这种方法(被描述为无对齐或近似序列匹配方法)通常依赖于启发式方法。这项项目工作正在通过创建数学框架并解决多个近似序列匹配问题和可证明有效的运行时保证,从而推进了该领域。项目工作还支持受到数学框架的启发和支持的实践启发式方法的发展,开发用于解决高性能并行计算机上的大规模问题的平行方法以及研究这些方法对重要应用的影响。项目结果可通过开源软件提供,供从业人员使用。这项研究的结果将纳入PIS教授的课程中,并通过书籍章节和教程以及随附的幻灯片进行更广泛的传播。该项目将支持研究科学家和博士学位。接受跨学科培训的学生将他们启动到生产力职业,重点是当前相关性的重要问题。本科参与是通过课程项目计划的。项目的工作基于无对齐基因组比较方法的最新进展,并利用了由高通量测序仪产生的数据的受控错误特征,以及许多由它们启用的生物信息信息应用程序。项目目标包括开发一个可靠的算法框架,用于设计基于近似基因组成组成的新的无对齐方法,并为大序列数据集中的成对近似序列匹配开发顺序和并行算法。目的是开发渐近地优于基于二次对准的方法的算法,并直接或通过进一步发展依赖基本理论的实用启发式式实践启发式,实现良好的实践绩效。将在重要应用的背景下进一步研究开发的技术,例如读取误差校正,基因组映射和组装。尽管在计算生物学的背景下进行,但其中一些方法可能适用于其他领域,例如文本处理和信息检索。更广泛的研究社区将通过发布软件模块和在重要应用领域的项目工作来影响更广泛的研究社区。

项目成果

期刊论文数量(20)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
The Complexity of Approximate Pattern Matching on de Bruijn Graphs
On the Complexity of BWT-runs Minimization via Alphabet Reordering
  • DOI:
    10.4230/lipics.esa.2020.15
  • 发表时间:
    2019-11
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jason Bentley;Daniel Gibney;Sharma V. Thankachan
  • 通讯作者:
    Jason Bentley;Daniel Gibney;Sharma V. Thankachan
The Heaviest Induced Ancestors Problem Revisited
重温最重的诱发祖先问题
  • DOI:
    10.4230/lipics.cpm.2018.20
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Abedin, P.;Hooshmand, S.;Ganguly, A.;Thankachan, S.V.
  • 通讯作者:
    Thankachan, S.V.
A Linear-Space Data Structure for Range-LCP Queries in Poly-Logarithmic Time
多对数时间内范围LCP查询的线性空间数据结构
Algorithmic Framework for Approximate Matching Under Bounded Edits with Applications to Sequence Analysis
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Srinivas Aluru其他文献

A Parallel Monte Carlo Algorithm for Protein Accessible Surface Area Computation
蛋白质可及表面积计算的并行蒙特卡罗算法
  • DOI:
    10.1007/978-3-540-46642-0_49
  • 发表时间:
    1999
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Srinivas Aluru;D. Ranjan;N. Futamura
  • 通讯作者:
    N. Futamura

Srinivas Aluru的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Srinivas Aluru', 18)}}的其他基金

A scalable integrated multi-modal single cell analysis framework for gene regulatory and cell-cell interaction networks
用于基因调控和细胞间相互作用网络的可扩展集成多模式单细胞分析框架
  • 批准号:
    2233887
  • 财政年份:
    2023
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
BD Hubs: Collaborative Proposal: SOUTH:The South Big Data Innovation Hub
BD Hubs:合作提案:SOUTH:南方大数据创新中心
  • 批准号:
    1916589
  • 财政年份:
    2019
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Cooperative Agreement
AF: Small: Algorithmic Techniques for High-throughput Analysis of Long Reads
AF:小:长读长高通量分析的算法技术
  • 批准号:
    1816027
  • 财政年份:
    2018
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
EAGER: A Framework for Learning Graph Algorithms with Applications to Social and Gene Networks
EAGER:学习图算法及其在社交和基因网络中的应用的框架
  • 批准号:
    1841351
  • 财政年份:
    2018
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
MRI: Acquisition of an HPC System for Data-Driven Discovery in Computational Astrophysics, Biology, Chemistry, and Materials Science
MRI:获取 HPC 系统,用于计算天体物理学、生物学、化学和材料科学中的数据驱动发现
  • 批准号:
    1828187
  • 财政年份:
    2018
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
Big Data Regional Innovation Hubs and Spokes Workshop
大数据区域创新中心和辐射研讨会
  • 批准号:
    1736154
  • 财政年份:
    2017
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
SHF:Small: Reproducibility and Comprehensive Assessment of Next Generation Sequencing Bioinformatics Software
SHF:Small:下一代测序生物信息学软件的重现性和综合评估
  • 批准号:
    1718479
  • 财政年份:
    2017
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
BD Hubs: Collaborative Proposal: SOUTH: A Big Data Innovation Hub for the South Region
BD 中心:合作提案:SOUTH:南部地区的大数据创新中心
  • 批准号:
    1550305
  • 财政年份:
    2015
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
EAGER: Exploratory Research on the Micron Automata Processor
EAGER:微米自动机处理器的探索性研究
  • 批准号:
    1448333
  • 财政年份:
    2014
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
Collaborative Research: ABI Innovation: Towards high-performance flexible transcription factor-DNA docking
合作研究:ABI 创新:迈向高性能灵活的转录因子-DNA 对接
  • 批准号:
    1356065
  • 财政年份:
    2014
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant

相似国自然基金

复合低维拓扑材料中等离激元增强光学响应的研究
  • 批准号:
    12374288
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
基于管理市场和干预分工视角的消失中等企业:特征事实、内在机制和优化路径
  • 批准号:
    72374217
  • 批准年份:
    2023
  • 资助金额:
    41.00 万元
  • 项目类别:
    面上项目
托卡马克偏滤器中等离子体的多尺度算法与数值模拟研究
  • 批准号:
    12371432
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
中等质量黑洞附近的暗物质分布及其IMRI系统引力波回波探测
  • 批准号:
    12365008
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
中等垂直风切变下非对称型热带气旋快速增强的物理机制研究
  • 批准号:
    42305004
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: AF: Medium: The Communication Cost of Distributed Computation
合作研究:AF:媒介:分布式计算的通信成本
  • 批准号:
    2402836
  • 财政年份:
    2024
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Medium: Foundations of Oblivious Reconfigurable Networks
合作研究:AF:媒介:遗忘可重构网络的基础
  • 批准号:
    2402851
  • 财政年份:
    2024
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Medium: Algorithms Meet Machine Learning: Mitigating Uncertainty in Optimization
协作研究:AF:媒介:算法遇见机器学习:减轻优化中的不确定性
  • 批准号:
    2422926
  • 财政年份:
    2024
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Medium: Fast Combinatorial Algorithms for (Dynamic) Matchings and Shortest Paths
合作研究:AF:中:(动态)匹配和最短路径的快速组合算法
  • 批准号:
    2402283
  • 财政年份:
    2024
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Medium: Foundations of Oblivious Reconfigurable Networks
合作研究:AF:媒介:遗忘可重构网络的基础
  • 批准号:
    2402852
  • 财政年份:
    2024
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了