Machine learning approaches for improved accuracy and speed in sequence annotation

用于提高序列注释的准确性和速度的机器学习方法

基本信息

  • 批准号:
    10838066
  • 负责人:
  • 金额:
    $ 25.21万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2019
  • 资助国家:
    美国
  • 起止时间:
    2019-09-20 至 2024-07-31
  • 项目状态:
    已结题

项目摘要

Summary/Abstract Alignment of biological sequences is a key step in understanding their evolution, function, and patterns of activity. Here, we describe Machine Learning approaches to improve both accuracy and speed of highly- sensitive sequence alignment. To improve accuracy, we develop methods to reduce erroneous annotation caused by (1) the existence of low complexity and repetitive sequence and (2) the overextension of alignments of true homologs into unrelated sequence. We describe approaches based on both hidden Markov models and Artificial Neural Networks to dramatically reduce these sorts of sequence annotation error. We also address the issue of annotation speed, with development of a custom Deep Learning architecture designed to very quickly filter away large portions of candidate sequence comparisons prior to the relatively-slow sequence-alignment step. The results of these efforts will be incorporated into forks of the open source sequence alignment tools HMMER, MMSeqs, and (where appropriate) BLAST; we will also work with community developers of annotation pipelines, such as RepeatMasker and IMG/M, to incorporate these approaches. The development and incorporation into these widely used bioinformatics tools will lead to widespread impact on sequence annotation efforts.
摘要/摘要 生物序列的比对是理解其进化、功能和模式的关键一步 活动。在这里,我们描述了机器学习方法,以提高高度的准确性和速度。 敏感的序列比对。为了提高准确性,我们开发了减少错误注释的方法 由(1)低复杂性和重复序列的存在以及(2)过度扩展引起 将真正的同源物与不相关的序列进行比对。我们描述了基于隐藏的方法 马尔可夫模型和人工神经网络可显着减少此类序列注释 错误。我们还通过开发定制的深度学习来解决注释速度的问题 旨在快速过滤掉大部分候选序列比较的架构 相对较慢的序列比对步骤。这些努力的结果将被纳入到分叉中 开源序列比对工具 HMMER、MMSeqs 和(如果适用)BLAST;我们也会 与注释管道的社区开发人员(例如 RepeatMasker 和 IMG/M)合作,将 这些方法。这些广泛使用的生物信息学工具的开发和整合将导致 对序列注释工作产生广泛影响。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
nail: software for high-speed, high-sensitivity protein sequence annotation.
nail:用于高速、高灵敏度蛋白质序列注释的软件。
  • DOI:
  • 发表时间:
    2024-01-30
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Roddy, Jack W;Rich, David H;Wheeler, Travis J
  • 通讯作者:
    Wheeler, Travis J
Drugsniffer: An Open Source Workflow for Virtually Screening Billions of Molecules for Binding Affinity to Protein Targets.
Drugsniffer:一种开源工作流程,用于虚拟筛选数十亿个分子与蛋白质靶点的结合亲和力。
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Venkatraman, Vishwesh;Colligan, Thomas H;Lesica, George T;Olson, Daniel R;Gaiser, Jeremiah;Copeland, Conner J;Wheeler, Travis J;Roy, Amitava
  • 通讯作者:
    Roy, Amitava
DISCO: A deep learning ensemble for uncertainty-aware segmentation of acoustic signals.
DISCO:一种深度学习集成,用于对声学信号进行不确定性感知分割。
  • DOI:
  • 发表时间:
    2023-01-26
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Colligan, Thomas;Irish, Kayla;Emlen, Douglas J;Wheeler, Travis J
  • 通讯作者:
    Wheeler, Travis J
DISCO: A deep learning ensemble for uncertainty-aware segmentation of acoustic signals.
DISCO:一种深度学习集成,用于对声学信号进行不确定性感知分割。
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
    Colligan, Thomas;Irish, Kayla;Emlen, Douglas J;Wheeler, Travis J
  • 通讯作者:
    Wheeler, Travis J
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Travis John Wheeler其他文献

Travis John Wheeler的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Travis John Wheeler', 18)}}的其他基金

Building Knowledge About Alternatively-spliced Dual-Coding Exons
建立关于选择性剪接双编码外显子的知识
  • 批准号:
    10701663
  • 财政年份:
    2022
  • 资助金额:
    $ 25.21万
  • 项目类别:
Building Knowledge About Alternatively-spliced Dual-Coding Exons
建立关于选择性剪接双编码外显子的知识
  • 批准号:
    10363514
  • 财政年份:
    2022
  • 资助金额:
    $ 25.21万
  • 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
  • 批准号:
    10465048
  • 财政年份:
    2019
  • 资助金额:
    $ 25.21万
  • 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
  • 批准号:
    10020995
  • 财政年份:
    2019
  • 资助金额:
    $ 25.21万
  • 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation: supplement for software enhancement
提高序列注释准确性和速度的机器学习方法:软件增强的补充
  • 批准号:
    10406630
  • 财政年份:
    2019
  • 资助金额:
    $ 25.21万
  • 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
  • 批准号:
    10231149
  • 财政年份:
    2019
  • 资助金额:
    $ 25.21万
  • 项目类别:

相似国自然基金

网络入侵检测机器学习模型多维鲁棒性评测方法研究
  • 批准号:
    62372126
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
面向海量重力卫星观测数据精化处理的机器学习方法研究
  • 批准号:
    42374004
  • 批准年份:
    2023
  • 资助金额:
    51 万元
  • 项目类别:
    面上项目
基于机器学习方法的土壤多孔介质中EPFRs环境行为与生态毒性研究
  • 批准号:
    42377385
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
基于物理信息机器学习的道岔转辙器故障预测方法
  • 批准号:
    52372308
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
基于融合物理知识机器学习方法的圆柱浮式阵列水动力特性评估初探
  • 批准号:
    12302318
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Automating data acquisition and data processing pipeline via artificial intelligence and machine learning approaches to allow at-home use of a novel breast cancer screening method employing bra-based elastography imaging.
通过人工智能和机器学习方法自动化数据采集和数据处理流程,以便在家使用基于胸罩的弹性成像成像的新型乳腺癌筛查方法。
  • 批准号:
    486956
  • 财政年份:
    2023
  • 资助金额:
    $ 25.21万
  • 项目类别:
    Operating Grants
Transformative approaches to rapidly and efficiently test demand creation interventions to promote HIV retesting in adults at increased risk of HIV
快速有效地检测需求创造干预措施的变革性方法,以促进艾滋病毒风险增加的成年人重新检测艾滋病毒
  • 批准号:
    10761117
  • 财政年份:
    2023
  • 资助金额:
    $ 25.21万
  • 项目类别:
Practical Approaches to Care in Emergency Syncope (PACES)
紧急晕厥的实用护理方法 (PACES)
  • 批准号:
    10854193
  • 财政年份:
    2023
  • 资助金额:
    $ 25.21万
  • 项目类别:
Computational approaches to the mechanistic elucidation of the serrated pathway of human colon carcinogenesis
人类结肠癌发生锯齿状途径机制阐明的计算方法
  • 批准号:
    10590985
  • 财政年份:
    2023
  • 资助金额:
    $ 25.21万
  • 项目类别:
Machine Learning Approaches for Behavioral Phenotyping of Humanized Knock-in Models of Alzheimer's Disease
用于阿尔茨海默病人源化敲入模型行为表型的机器学习方法
  • 批准号:
    10741685
  • 财政年份:
    2023
  • 资助金额:
    $ 25.21万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了