Improvements and Extensions to the BLAST Algorithms

BLAST 算法的改进和扩展

基本信息

  • 批准号:
    9555732
  • 负责人:
  • 金额:
    $ 2.14万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
  • 资助国家:
    美国
  • 起止时间:
  • 项目状态:
    未结题

项目摘要

In collaboration with Nidhi Shah and Mihai Pop of the University of Maryland, I opened a new avenue of investigation for this project. An important task in a metagenomic analysis is the assignment of taxonomic labels to sequences in a sample. Most widely used methods for taxonomy assignment compare a sequence in the sample to a database of known sequences. Many approaches use the best BLAST hit(s) to assign the taxonomic label. However, it is known that the best BLAST hit may not always correspond to the best taxonomic match. An alternative approach involves phylogenetic methods which take into account alignments and a model of evolution in order to more accurately define the taxonomic origin of sequences. The similarity- search based methods typically run faster than phylogenetic methods and work well when the organisms in the sample are well represented in the database. On the other hand, phylogenetic methods have the capability to identify new organisms in a sample but are computationally quite expensive. We proposed a two-step approach for metagenomic taxon identification; i.e., the use of a rapid method that accurately classifies sequences using a reference database (this is a filtering step) and then the use a more complex phylogenetic method for the sequences that were unclassified in the previous step. We explored whether and when using top BLAST hit(s) yields a correct taxonomic label. We develop a method to detect outliers among BLAST hits in order to separate the phylogenetically most closely related matches from matches to sequences from more distantly related organisms. We used modified BILD (Bayesian Integral Log Odds) scores, a multiple-alignment scoring function, to define the outliers within a subset of top BLAST hits and assign taxonomic labels. We compared the accuracy of our method to the RDP classifier and show that our method yields fewer misclassifications while properly classifying organisms that are not present in the database. Finally, we evaluated the use of our method as a pre- processing step before more expensive phylogenetic analyses (in our case TIPP) in the context of real 16S rRNA datasets. Our experiments demonstrated the potential of our method to be a filtering step before using phylogenetic methods. This work was presented in August at the 17th Int. Workshop on Algorithms in Bioinformatics, in Boston, MA. In collaboration with Mihai Pop, I also wrote an expository article on sequence alignment for the CRC Handbook of Discrete and Combinatorial Mathematics.
与大学的Nidhi Shah和Mihai Pop合作 马里兰州,我为这个项目开设了新的调查途径。 宏基因组分析中的一个重要任务是分配 分类标记样品中的序列。 最广泛使用的方法 对于分类学分配,将样本中的序列与数据库进行比较 已知序列。 许多方法都使用最佳的爆炸击中 分配分类标签。 但是,众所周知,最好 爆炸击中可能并不总是与最佳分类匹配相对应。 另一种方法涉及系统发育方法 考虑到一致性和进化模型,以便更多 准确定义序列的分类来源。 相似性 - 基于搜索的方法通常比系统发育方法更快 当样本中的生物很好地表示时,工作良好 在数据库中。 另一方面,系统发育方法具有 在样本中识别新生物的能力,但 计算上很昂贵。 我们提出了一种两步的方法 用于宏基因组分类单元鉴定;即,快速使用 使用参考准确对序列进行准确分类的方法 数据库(这是一个过滤步骤),然后使用更复杂的 用于未分类的序列的系统发育方法 上一步。 我们探索了是否以及使用Top Blast命中 产生正确的分类标签。 我们开发了一种检测方法 爆炸命中的离群值以分离系统发育 从匹配到序列的最紧密相关的匹配来自更多 遥远相关的生物。 我们使用了修改后的Bild(贝叶斯人 积分log赔率)得分,一个多重对准评分函数, 在顶部爆炸命中的子集中定义异常值并分配 分类标签。 我们将方法的准确性与RDP进行了比较 分类器并表明我们的方法产生的错误分类较少 虽然正确分类了不存在的生物 数据库。 最后,我们评估了方法的使用作为预先 处理更昂贵的系统发育分析(在我们的 案例tipp)在实际16S rRNA数据集的上下文中。 我们的实验 证明了我们方法成为过滤步骤的潜力 在使用系统发育方法之前。 这项工作是在 八月在17日。关于生物信息学算法的研讨会, 在马萨诸塞州波士顿。 与Mihai Pop合作,我还写了一个说明性 有关CRC离散手册的序列对齐方式的文章 和组合数学。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

STEPHEN F ALTSCHUL其他文献

STEPHEN F ALTSCHUL的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('STEPHEN F ALTSCHUL', 18)}}的其他基金

STATISTICS OF SEQUENCE COMPARISON
序列比较统计
  • 批准号:
    6290478
  • 财政年份:
  • 资助金额:
    $ 2.14万
  • 项目类别:
Improvements And Extensions To The Blast Algorithms
Blast 算法的改进和扩展
  • 批准号:
    6546809
  • 财政年份:
  • 资助金额:
    $ 2.14万
  • 项目类别:
Improvements And Extensions To The Blast Algorithms
Blast 算法的改进和扩展
  • 批准号:
    6843572
  • 财政年份:
  • 资助金额:
    $ 2.14万
  • 项目类别:
Statistics of Sequence Comparison
序列比较统计
  • 批准号:
    9160904
  • 财政年份:
  • 资助金额:
    $ 2.14万
  • 项目类别:
Statistics of Sequence Comparison
序列比较统计
  • 批准号:
    10007519
  • 财政年份:
  • 资助金额:
    $ 2.14万
  • 项目类别:
Statistics of Sequence Comparison
序列比较统计
  • 批准号:
    8558094
  • 财政年份:
  • 资助金额:
    $ 2.14万
  • 项目类别:
Statistics of Sequence Comparison
序列比较统计
  • 批准号:
    8149590
  • 财政年份:
  • 资助金额:
    $ 2.14万
  • 项目类别:
IMPROVEMENTS AND EXTENSIONS TO THE BLAST ALGORITHMS
Blast 算法的改进和扩展
  • 批准号:
    6432754
  • 财政年份:
  • 资助金额:
    $ 2.14万
  • 项目类别:
Statistics Of Sequence Comparison
序列比较统计
  • 批准号:
    6681316
  • 财政年份:
  • 资助金额:
    $ 2.14万
  • 项目类别:
Statistics of Sequence Comparison
序列比较统计
  • 批准号:
    9555728
  • 财政年份:
  • 资助金额:
    $ 2.14万
  • 项目类别:

相似国自然基金

2023年(第四届)国际生物数学与医学应用研讨会
  • 批准号:
    12342004
  • 批准年份:
    2023
  • 资助金额:
    8.00 万元
  • 项目类别:
    专项项目
突变和修饰重塑蛋白质亚细胞定位的生物信息学研究
  • 批准号:
    32370698
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于生物信息学的类风湿性关节炎患者衰弱预测模型的构建与验证
  • 批准号:
    82301786
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于结构表征的蛋白质与长链非编码RNA相互作用预测的生物信息学方法研究
  • 批准号:
    62373216
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
蛋白质降解决定因子的生物信息学筛选及其耐药突变的多组学分析研究
  • 批准号:
    32300528
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Genomics and Bioinformatics Core
基因组学和生物信息学核心
  • 批准号:
    10586206
  • 财政年份:
    2023
  • 资助金额:
    $ 2.14万
  • 项目类别:
Somatic mutations in neurodevelopment and disease
神经发育和疾病中的体细胞突变
  • 批准号:
    10650852
  • 财政年份:
    2022
  • 资助金额:
    $ 2.14万
  • 项目类别:
Somatic mutations in neurodevelopment and disease
神经发育和疾病中的体细胞突变
  • 批准号:
    10506193
  • 财政年份:
    2022
  • 资助金额:
    $ 2.14万
  • 项目类别:
New therapeutic vulnerabilities in breast cancer
乳腺癌新的治疗弱点
  • 批准号:
    10434102
  • 财政年份:
    2020
  • 资助金额:
    $ 2.14万
  • 项目类别:
New therapeutic vulnerabilities in breast cancer
乳腺癌新的治疗弱点
  • 批准号:
    10627961
  • 财政年份:
    2020
  • 资助金额:
    $ 2.14万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了