Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
基本信息
- 批准号:10020995
- 负责人:
- 金额:$ 28.75万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2019
- 资助国家:美国
- 起止时间:2019-09-20 至 2023-07-31
- 项目状态:已结题
- 来源:
- 关键词:AddressAlgorithmsArchitectureBioinformaticsBiologicalClassificationCollectionCommunitiesComplexComputer Vision SystemsComputer softwareConsumptionCustomDNA Transposable ElementsData SetDeletion MutationDescriptorDevelopmentError SourcesEvolutionFoundationsGenomeGenomicsHourHumanHuman GenomeIndustry StandardInsertion MutationInstitutesInterventionJointsLabelLettersLicensingMachine LearningManualsMasksMethodsModelingModernizationMolecular BiologyNetwork-basedNucleotidesPatternPilot ProjectsProteinsRepetitive SequenceSequence AlignmentSequence AnalysisSourceSpeedStatistical ModelsTakifuguWorkannotation systemartificial neural networkbasebioinformatics toolcomputing resourcesconvolutional neural networkdeep learningdensitydesigngenomic dataimprovedmarkov modelneural network architecturenovelnovel strategiesopen sourcesoftware developmentstatisticssuccesstool
项目摘要
Summary/Abstract
Alignment of biological sequences is a key step in understanding their evolution, function, and patterns of
activity. Here, we describe Machine Learning approaches to improve both accuracy and speed of highly-
sensitive sequence alignment. To improve accuracy, we develop methods to reduce erroneous annotation
caused by (1) the existence of low complexity and repetitive sequence and (2) the overextension of
alignments of true homologs into unrelated sequence. We describe approaches based on both hidden
Markov models and Artificial Neural Networks to dramatically reduce these sorts of sequence annotation
error. We also address the issue of annotation speed, with development of a custom Deep Learning
architecture designed to very quickly filter away large portions of candidate sequence comparisons prior to
the relatively-slow sequence-alignment step. The results of these efforts will be incorporated into forks of the
open source sequence alignment tools HMMER, MMSeqs, and (where appropriate) BLAST; we will also
work with community developers of annotation pipelines, such as RepeatMasker and IMG/M, to incorporate
these approaches. The development and incorporation into these widely used bioinformatics tools will lead
to widespread impact on sequence annotation efforts.
摘要/摘要
生物序列的比对是理解其进化、功能和模式的关键一步
活动。在这里,我们描述了机器学习方法,以提高高度的准确性和速度。
敏感的序列比对。为了提高准确性,我们开发了减少错误注释的方法
由(1)低复杂性和重复序列的存在以及(2)过度扩展引起
将真正的同源物与不相关的序列进行比对。我们描述了基于隐藏的方法
马尔可夫模型和人工神经网络可显着减少此类序列注释
错误。我们还通过开发定制的深度学习来解决注释速度的问题
旨在快速过滤掉大部分候选序列比较的架构
相对较慢的序列比对步骤。这些努力的结果将被纳入到分叉中
开源序列比对工具 HMMER、MMSeqs 和(如果适用)BLAST;我们也会
与注释管道的社区开发人员(例如 RepeatMasker 和 IMG/M)合作,将
这些方法。这些广泛使用的生物信息学工具的开发和整合将导致
对序列注释工作产生广泛影响。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Travis John Wheeler其他文献
Travis John Wheeler的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Travis John Wheeler', 18)}}的其他基金
Building Knowledge About Alternatively-spliced Dual-Coding Exons
建立关于选择性剪接双编码外显子的知识
- 批准号:
10701663 - 财政年份:2022
- 资助金额:
$ 28.75万 - 项目类别:
Building Knowledge About Alternatively-spliced Dual-Coding Exons
建立关于选择性剪接双编码外显子的知识
- 批准号:
10363514 - 财政年份:2022
- 资助金额:
$ 28.75万 - 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
- 批准号:
10465048 - 财政年份:2019
- 资助金额:
$ 28.75万 - 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
- 批准号:
10838066 - 财政年份:2019
- 资助金额:
$ 28.75万 - 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation: supplement for software enhancement
提高序列注释准确性和速度的机器学习方法:软件增强的补充
- 批准号:
10406630 - 财政年份:2019
- 资助金额:
$ 28.75万 - 项目类别:
Machine learning approaches for improved accuracy and speed in sequence annotation
用于提高序列注释的准确性和速度的机器学习方法
- 批准号:
10231149 - 财政年份:2019
- 资助金额:
$ 28.75万 - 项目类别:
相似国自然基金
随机阻尼波动方程的高效保结构算法研究
- 批准号:12301518
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
大规模黎曼流形稀疏优化算法及应用
- 批准号:12371306
- 批准年份:2023
- 资助金额:43.5 万元
- 项目类别:面上项目
基于任意精度计算架构的量子信息处理算法硬件加速技术研究
- 批准号:62304037
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
分布式非凸非光滑优化问题的凸松弛及高低阶加速算法研究
- 批准号:12371308
- 批准年份:2023
- 资助金额:43.5 万元
- 项目类别:面上项目
基于物理信息神经网络的雷达回波资料反演蒸发波导算法研究
- 批准号:42305048
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
A computational model for prediction of morphology, patterning, and strength in bone regeneration
用于预测骨再生形态、图案和强度的计算模型
- 批准号:
10727940 - 财政年份:2023
- 资助金额:
$ 28.75万 - 项目类别:
Early Detection of Pancreatic Cancer with Human-in-the-Loop Deep Learning
通过人在环深度学习早期检测胰腺癌
- 批准号:
10592060 - 财政年份:2023
- 资助金额:
$ 28.75万 - 项目类别:
Image-based risk assessment to identify women at high-risk for breast cancer
基于图像的风险评估可识别乳腺癌高危女性
- 批准号:
10759110 - 财政年份:2023
- 资助金额:
$ 28.75万 - 项目类别:
CRCNS: Dense longitudinal neuroimaging to evaluate learning in childhood
CRCNS:密集纵向神经影像评估儿童学习情况
- 批准号:
10835136 - 财政年份:2023
- 资助金额:
$ 28.75万 - 项目类别:
Precision Medicine Digital Twins for Alzheimer’s Target and Drug Discovery and Longevity
用于阿尔茨海默氏症靶点和药物发现及长寿的精准医学数字孪生
- 批准号:
10727793 - 财政年份:2023
- 资助金额:
$ 28.75万 - 项目类别: