Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
基本信息
- 批准号:10231149
- 负责人:
- 金额:$ 28.74万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2019
- 资助国家:美国
- 起止时间:2019-09-20 至 2023-07-31
- 项目状态:已结题
- 来源:
- 关键词:AddressAlgorithmsArchitectureBioinformaticsBiologicalClassificationCollectionCommunitiesComplexComputer Vision SystemsComputer softwareConsumptionCustomDNA Transposable ElementsData SetDeletion MutationDescriptorDevelopmentError SourcesEvolutionFoundationsGenomeGenomicsHourHumanHuman GenomeIndustry StandardInsertion MutationInstitutesInterventionJointsLabelLettersLicensingMachine LearningManualsMasksMethodsModelingModernizationMolecular BiologyNetwork-basedNucleotidesPatternPilot ProjectsProteinsRepetitive SequenceSequence AlignmentSequence AnalysisSourceSpeedStatistical ModelsTakifuguWorkannotation systemartificial neural networkbasebioinformatics toolcomputing resourcesconvolutional neural networkdeep learningdensitydesigngenomic dataimprovedmarkov modelneural network architecturenovelnovel strategiesopen sourcesoftware developmentstatisticssuccesstool
项目摘要
Summary/Abstract
Alignment of biological sequences is a key step in understanding their evolution, function, and patterns of
activity. Here, we describe Machine Learning approaches to improve both accuracy and speed of highly-
sensitive sequence alignment. To improve accuracy, we develop methods to reduce erroneous annotation
caused by (1) the existence of low complexity and repetitive sequence and (2) the overextension of
alignments of true homologs into unrelated sequence. We describe approaches based on both hidden
Markov models and Artificial Neural Networks to dramatically reduce these sorts of sequence annotation
error. We also address the issue of annotation speed, with development of a custom Deep Learning
architecture designed to very quickly filter away large portions of candidate sequence comparisons prior to
the relatively-slow sequence-alignment step. The results of these efforts will be incorporated into forks of the
open source sequence alignment tools HMMER, MMSeqs, and (where appropriate) BLAST; we will also
work with community developers of annotation pipelines, such as RepeatMasker and IMG/M, to incorporate
these approaches. The development and incorporation into these widely used bioinformatics tools will lead
to widespread impact on sequence annotation efforts.
摘要/摘要
生物序列的比对是理解其进化、功能和模式的关键一步
活动。在这里,我们描述了机器学习方法,以提高高度的准确性和速度。
敏感的序列比对。为了提高准确性,我们开发了减少错误注释的方法
由(1)低复杂性和重复序列的存在以及(2)过度扩展引起
将真正的同源物与不相关的序列进行比对。我们描述了基于隐藏的方法
马尔可夫模型和人工神经网络可显着减少此类序列注释
错误。我们还通过开发定制的深度学习来解决注释速度的问题
旨在快速过滤掉大部分候选序列比较的架构
相对较慢的序列比对步骤。这些努力的结果将被纳入到分叉中
开源序列比对工具 HMMER、MMSeqs 和(如果适用)BLAST;我们也会
与注释管道的社区开发人员(例如 RepeatMasker 和 IMG/M)合作,将
这些方法。这些广泛使用的生物信息学工具的开发和整合将导致
对序列注释工作产生广泛影响。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Travis John Wheeler其他文献
Travis John Wheeler的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Travis John Wheeler', 18)}}的其他基金
Building Knowledge About Alternatively-spliced Dual-Coding Exons
建立关于选择性剪接双编码外显子的知识
- 批准号:
10363514 - 财政年份:2022
- 资助金额:
$ 28.74万 - 项目类别:
Building Knowledge About Alternatively-spliced Dual-Coding Exons
建立关于选择性剪接双编码外显子的知识
- 批准号:
10701663 - 财政年份:2022
- 资助金额:
$ 28.74万 - 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation: supplement for software enhancement
提高序列注释准确性和速度的机器学习方法:软件增强的补充
- 批准号:
10406630 - 财政年份:2019
- 资助金额:
$ 28.74万 - 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
- 批准号:
10838066 - 财政年份:2019
- 资助金额:
$ 28.74万 - 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
- 批准号:
10465048 - 财政年份:2019
- 资助金额:
$ 28.74万 - 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
- 批准号:
10020995 - 财政年份:2019
- 资助金额:
$ 28.74万 - 项目类别:
相似国自然基金
地表与大气层顶短波辐射多分量一体化遥感反演算法研究
- 批准号:42371342
- 批准年份:2023
- 资助金额:52 万元
- 项目类别:面上项目
高速铁路柔性列车运行图集成优化模型及对偶分解算法
- 批准号:72361020
- 批准年份:2023
- 资助金额:27 万元
- 项目类别:地区科学基金项目
随机密度泛函理论的算法设计和分析
- 批准号:12371431
- 批准年份:2023
- 资助金额:43.5 万元
- 项目类别:面上项目
基于全息交通数据的高速公路大型货车运行风险识别算法及主动干预方法研究
- 批准号:52372329
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
高效非完全信息对抗性团队博弈求解算法研究
- 批准号:62376073
- 批准年份:2023
- 资助金额:51 万元
- 项目类别:面上项目
相似海外基金
Elucidating causal mechanisms of ethanol-induced analgesia in BXD recombinant inbred mouse lines
阐明 BXD 重组近交系小鼠乙醇诱导镇痛的因果机制
- 批准号:
10825737 - 财政年份:2023
- 资助金额:
$ 28.74万 - 项目类别:
A computational model for prediction of morphology, patterning, and strength in bone regeneration
用于预测骨再生形态、图案和强度的计算模型
- 批准号:
10727940 - 财政年份:2023
- 资助金额:
$ 28.74万 - 项目类别:
Dynamic neural coding of spectro-temporal sound features during free movement
自由运动时谱时声音特征的动态神经编码
- 批准号:
10656110 - 财政年份:2023
- 资助金额:
$ 28.74万 - 项目类别:
Discovering clinical endpoints of toxicity via graph machine learning and semantic data analysis
通过图机器学习和语义数据分析发现毒性的临床终点
- 批准号:
10745593 - 财政年份:2023
- 资助金额:
$ 28.74万 - 项目类别:
GPU-based SPECT Reconstruction Using Reverse Monte Carlo Simulations
使用反向蒙特卡罗模拟进行基于 GPU 的 SPECT 重建
- 批准号:
10740079 - 财政年份:2023
- 资助金额:
$ 28.74万 - 项目类别: