AF: Medium: Collaborative Research: Sequential and Parallel Algorithms for Approximate Sequence Matching with Applications to Computational Biology

AF:媒介:协作研究:近似序列匹配的顺序和并行算法及其在计算生物学中的应用

基本信息

  • 批准号:
    1704552
  • 负责人:
  • 金额:
    $ 52.5万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-07-01 至 2022-06-30
  • 项目状态:
    已结题

项目摘要

Sequence matching problems are central to the field of genomics, both in analyzing naturally occurring sequences such as genomes and in analyzing data from sequencing instruments. Often, methods that can accommodate a small number of differences within the matching regions suffice in practice. Such methods, described as alignment-free or approximate sequence matching methods, have typically relied on heuristics. This project work is advancing the field by creating a mathematical framework and solving multiple approximate sequence matching problems with provably efficient run-time guarantees. Project work is also supporting the development of practical heuristics inspired and supported by the mathematical framework, development of parallel methods for solving large-scale problems on high performance parallel computers, and studying the impact of these methods on important applications. Project results are made available through open source software for use by practitioners. Results from this research will be incorporated into courses taught by the PIs, and disseminated more broadly through book chapters and tutorials and accompanying slides. The project will support research scientist and Ph.D. students in interdisciplinary training for launching them into productive careers focused on important problems of current relevance. Undergraduate participation is planned through course projects.Project work builds upon recent progress in alignment-free genome comparison methods, and exploits the controlled error characteristics of data generated by high-throughput sequencers, and the many bioinformatics applications enabled by them. Project objectives include developing a robust algorithmic framework for designing newer alignment-free methods based on approximate substring composition, and developing sequential and parallel algorithms for pairwise approximate sequence matching among large sequence data sets. The goal is to develop algorithms that are asymptotically superior to quadratic alignment-based approaches, and achieve good practical performance either directly or through further development of practical heuristic that rely on the underlying theory. The developed techniques will be further investigated in the context of important applications such as read error correction, genome mapping, and assembly. Though conducted in the context of computational biology, some of the methods are potentially applicable to other areas such as text processing and information retrieval. Broader research community will be impacted through release of software modules and project work in important application areas.
序列匹配问题是基因组学领域的核心,无论是在分析自然发生的序列(例如基因组)还是在分析来自测序仪器的数据时。通常,在实践中,能够适应匹配区域内少量差异的方法就足够了。此类方法被描述为免比对或近似序列匹配方法,通常依赖于启发法。该项目工作通过创建数学框架并通过可证明有效的运行时保证解决多个近似序列匹配问题来推动该领域的发展。项目工作还支持在数学框架的启发和支持下开发实用启发式方法,开发在高性能并行计算机上解决大规模问题的并行方法,并研究这些方法对重要应用的影响。项目结果通过开源软件提供给从业者使用。这项研究的结果将纳入 PI 教授的课程中,并通过书籍章节和教程以及随附的幻灯片更广泛地传播。该项目将支持研究科学家和博士。学生接受跨学科培训,帮助他们进入富有成效的职业生涯,重点关注当前相关的重要问题。本科生的参与是通过课程项目来计划的。项目工作建立在免比对基因组比较方法的最新进展的基础上,并利用高通量测序仪生成的数据的受控误差特征以及由此实现的许多生物信息学应用。项目目标包括开发一个强大的算法框架,用于设计基于近似子串组成的更新的免对齐方法,以及开发用于大型序列数据集之间的成对近似序列匹配的顺序和并行算法。目标是开发渐近优于基于二次对齐的方法的算法,并直接或通过进一步开发依赖于基础理论的实用启发式方法来实现良好的实际性能。所开发的技术将在读取纠错、基因组作图和组装等重要应用中得到进一步研究。尽管是在计算生物学的背景下进行的,但其中一些方法可能适用于文本处理和信息检索等其他领域。更广泛的研究社区将通过重要应用领域的软件模块和项目工作的发布而受到影响。

项目成果

期刊论文数量(20)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A Linear-Space Data Structure for Range-LCP Queries in Poly-Logarithmic Time
多对数时间内范围LCP查询的线性空间数据结构
  • DOI:
    10.1007/978-3-319-94776-1_51
  • 发表时间:
    2018-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Abedin, Paniz;Ganguly, Arnab and;Nekrich, Yakov;Sadakane, Kunihiko;Shah, Rahul;Thankachan, Sharma V
  • 通讯作者:
    Thankachan, Sharma V
On the Complexity of BWT-Runs Minimization via Alphabet Reordering
通过字母重新排序来最小化 BWT 运行的复杂性
  • DOI:
    10.4230/lipics.esa.2020.15
  • 发表时间:
    2020-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    W. Bentley, Jason;Daniel, Gibney;V. Thankachan, Sharma
  • 通讯作者:
    V. Thankachan, Sharma
On the Hardness and Inapproximability of Recognizing Wheeler Graphs
论惠勒图识别的困难性和不可逼近性
Faster Computation of Genome Mappability with one Mismatch
更快地计算一种不匹配的基因组可图性
An Ultra-Fast and Parallelizable Algorithm for Finding $k$-Mismatch Shortest Unique Substrings
一种用于查找$k$-不匹配最短唯一子串的超快速且可并行的算法
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Srinivas Aluru其他文献

A Parallel Monte Carlo Algorithm for Protein Accessible Surface Area Computation
蛋白质可及表面积计算的并行蒙特卡罗算法
  • DOI:
    10.1007/978-3-540-46642-0_49
  • 发表时间:
    1999-12-17
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Srinivas Aluru;D. Ranjan;N. Futamura
  • 通讯作者:
    N. Futamura
Computational systems biology
计算系统生物学
  • DOI:
    10.1201/9781584888215-c32
  • 发表时间:
    2024-09-13
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T. M. Murali;Srinivas Aluru
  • 通讯作者:
    Srinivas Aluru
System Integration
系统集成
  • DOI:
    10.1007/978-0-387-09766-4_2206
  • 发表时间:
    2024-09-14
  • 期刊:
  • 影响因子:
    0
  • 作者:
    J. Dongarra;P. Luszczek;Felix Wolf;JesperLarsson Träff;P. Quinton;Hermann Hellwagner;Martin Fränzle;Christian Lengauer;Luis H Ceze;Kei Hiraki;R. Riesen;Arthur B. Maccabe;J. Feo;Kamesh Madduri;T. Risset;Maleq Khan;V. Kumar;M. Marathe;P. Stretz;S. Dwarkadas;L. Kalé;Edgar Solomonik;Michael Bader;H. Bungartz;M. Mehl;T. Huckle;M. Sedlacek;David A. Bader;Guojing Cong;Anshul Gupta;Matthias Müller;Brian Whitney;R. Henschel;Kalyan Kumaran;J. Torrellas;Lawrence Rauchwerger;E. Polizzi;Markus Püschel;F. Franchetti;Y. Voronenko;F. Darema;Ryan R. Newton;Amol Ghoting;Konstantin Makarychev;Xiaoye S. Li;J. Demmel;J. Gilbert;L. Grigori;Meiyue Shao;Wen;David A. Bader;J. Flich;S. Yalamanchili;Michael L. Scott;J. Zola;Srinivas Aluru;J. Reinders
  • 通讯作者:
    J. Reinders
T cells: IL-9 breaks down barriers
T 细胞:IL-9 打破屏障
  • DOI:
    10.1038/nri3709
  • 发表时间:
    2014-06-20
  • 期刊:
  • 影响因子:
    100.3
  • 作者:
    Thilo Kielmann;Sergei Gorlatch;Utpal Banerjee;Rocco De Nicola;Jack J. Dongarra;P. Luszczek;Paul Feautrier;Srinivas Aluru;R. van Glabbeek;Selim G. Akl;Gabriel Zachmann;Robert Geijn;Kazushige Goto;Lawrence Snyder;André Seznec;John L. Gustafson;J. Träff;R. Geijn;Ale;er Tiskin;er;Rajeev Balasubramonian;T. Pinkston
  • 通讯作者:
    T. Pinkston
SCEMENT: Scalable and Memory Efficient Integration of Large-scale Single Cell RNA-sequencing Data
SCMENT:大规模单细胞 RNA 测序数据的可扩展且内存高效的集成
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sriram P. Chockalingam;M. Aluru;Srinivas Aluru
  • 通讯作者:
    Srinivas Aluru

Srinivas Aluru的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Srinivas Aluru', 18)}}的其他基金

A scalable integrated multi-modal single cell analysis framework for gene regulatory and cell-cell interaction networks
用于基因调控和细胞间相互作用网络的可扩展集成多模式单细胞分析框架
  • 批准号:
    2233887
  • 财政年份:
    2023
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
BD Hubs: Collaborative Proposal: SOUTH:The South Big Data Innovation Hub
BD Hubs:合作提案:SOUTH:南方大数据创新中心
  • 批准号:
    1916589
  • 财政年份:
    2019
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Cooperative Agreement
AF: Small: Algorithmic Techniques for High-throughput Analysis of Long Reads
AF:小:长读长高通量分析的算法技术
  • 批准号:
    1816027
  • 财政年份:
    2018
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
EAGER: A Framework for Learning Graph Algorithms with Applications to Social and Gene Networks
EAGER:学习图算法及其在社交和基因网络中的应用的框架
  • 批准号:
    1841351
  • 财政年份:
    2018
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
MRI: Acquisition of an HPC System for Data-Driven Discovery in Computational Astrophysics, Biology, Chemistry, and Materials Science
MRI:获取 HPC 系统,用于计算天体物理学、生物学、化学和材料科学中的数据驱动发现
  • 批准号:
    1828187
  • 财政年份:
    2018
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
Big Data Regional Innovation Hubs and Spokes Workshop
大数据区域创新中心和辐射研讨会
  • 批准号:
    1736154
  • 财政年份:
    2017
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
SHF:Small: Reproducibility and Comprehensive Assessment of Next Generation Sequencing Bioinformatics Software
SHF:Small:下一代测序生物信息学软件的重现性和综合评估
  • 批准号:
    1718479
  • 财政年份:
    2017
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
BD Hubs: Collaborative Proposal: SOUTH: A Big Data Innovation Hub for the South Region
BD 中心:合作提案:SOUTH:南部地区的大数据创新中心
  • 批准号:
    1550305
  • 财政年份:
    2015
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant
Collaborative Research: ABI Innovation: Towards high-performance flexible transcription factor-DNA docking
合作研究:ABI 创新:迈向高性能灵活的转录因子-DNA 对接
  • 批准号:
    1356065
  • 财政年份:
    2014
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
EAGER: Exploratory Research on the Micron Automata Processor
EAGER:微米自动机处理器的探索性研究
  • 批准号:
    1448333
  • 财政年份:
    2014
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Standard Grant

相似国自然基金

基于机器学习和经典电动力学研究中等尺寸金属纳米粒子的量子表面等离激元
  • 批准号:
    22373002
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于挥发性分布和氧化校正的大气半/中等挥发性有机物来源解析方法构建
  • 批准号:
    42377095
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
中等质量黑洞附近的暗物质分布及其IMRI系统引力波回波探测
  • 批准号:
    12365008
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
复合低维拓扑材料中等离激元增强光学响应的研究
  • 批准号:
    12374288
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
中等垂直风切变下非对称型热带气旋快速增强的物理机制研究
  • 批准号:
    42305004
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: AF: Medium: Fast Combinatorial Algorithms for (Dynamic) Matchings and Shortest Paths
合作研究:AF:中:(动态)匹配和最短路径的快速组合算法
  • 批准号:
    2402284
  • 财政年份:
    2024
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Medium: The Communication Cost of Distributed Computation
合作研究:AF:媒介:分布式计算的通信成本
  • 批准号:
    2402835
  • 财政年份:
    2024
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Medium: The Communication Cost of Distributed Computation
合作研究:AF:媒介:分布式计算的通信成本
  • 批准号:
    2402836
  • 财政年份:
    2024
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Medium: Algorithms Meet Machine Learning: Mitigating Uncertainty in Optimization
协作研究:AF:媒介:算法遇见机器学习:减轻优化中的不确定性
  • 批准号:
    2422926
  • 财政年份:
    2024
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Medium: Adventures in Flatland: Algorithms for Modern Memories
合作研究:AF:媒介:平地历险记:现代记忆算法
  • 批准号:
    2423105
  • 财政年份:
    2024
  • 资助金额:
    $ 52.5万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了