Extraction of biomedical knowledge from literature and its systematization

文献中生物医学知识的提取及其系统化

基本信息

  • 批准号:
    12208001
  • 负责人:
  • 金额:
    $ 117.25万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
  • 财政年份:
    2000
  • 资助国家:
    日本
  • 起止时间:
    2000 至 2004
  • 项目状态:
    已结题

项目摘要

It is indispensable to develop databases of gene and protein interactions and their functions extracted from literature so that we can systematically understand lives based on flood of biological data such as genome sequences, gene expressions, and interactions between molecules. From this perspective, we have been tackling two challenges, that is, 1) automatically extracting knowledge of biological functions from literature and 2) representing and utilizing the extracted knowledge on computers. Followings are brief descriptions of our efforts.a)We developed a knowledge extraction system. We almost established a method of extracting information of gene / protein / chemical compounds interaction from literature. Our system achieved a recall of about 50 % and a precision of about 90 %.b)We developed dictionaries of gene names and gene family names that are used for identifying those names in literature. GENA, one of the dictionaries, stores about 880,000-gene names and, depending on organisms, covers 90-95 % of all the genes appearing in literature). By using the dictionaries and the above mentioned extraction system, we developed and published an interaction database called PRIME and a dictionary of biological functional terms. PRIME stores about three million interactions of six eukaryotes such as human and rat.c)We prepared a corpus and an ontology for knowledge extraction. To develop and evaluate a knowledge extraction system, a tagged corpus and an ontology of defining domain specific terms are needed. We, therefore, developed and published the GENIA corpus that is composed from 2,000 MEDLINE abstracts whose terms are given semantic and part-of-speech tags accordingly. In addition, we developed the GENIA ontology to be used for adding semantic tags to terms in literature.
开发从文献中提取的基因和蛋白质相互作用及其功能的数据库是必不可少的,这样我们就可以基于大量的生物数据(例如基因组序列、基因表达和分子之间的相互作用)系统地了解生命。从这个角度来看,我们一直在解决两个挑战,即1)从文献中自动提取生物功能知识;2)在计算机上表示和利用提取的知识。以下是我们的努力的简要描述。a)我们开发了一个知识提取系统。我们几乎建立了一种从文献中提取基因/蛋白质/化合物相互作用信息的方法。我们的系统实现了约 50% 的召回率和约 90% 的精确度。b)我们开发了基因名称和基因家族名称的字典,用于识别文献中的这些名称。 GENA 是词典之一,存储了大约 880,000 个基因名称,并且根据生物体的不同,涵盖了文献中出现的所有基因的 90-95%。通过使用词典和上述提取系统,我们开发并发布了名为 PRIME 的交互数据库和生物功能术语词典。 PRIME存储了人类和大鼠等六种真核生物的约三百万种相互作用。c)我们准备了一个语料库和一个本体用于知识提取。为了开发和评估知识提取系统,需要一个标记语料库和一个定义领域特定术语的本体。因此,我们开发并发布了 GENIA 语料库,该语料库由 2,000 个 MEDLINE 摘要组成,这些摘要的术语都被赋予了相应的语义和词性标签。此外,我们还开发了 GENIA 本体,用于向文献中的术语添加语义标签。

项目成果

期刊论文数量(285)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
An Integrative Model for Representation of Signaling Pathways on the Basis of Device Ontology
A Machine Learning Approach to Acronym Generation
  • DOI:
    10.3115/1641484.1641488
  • 发表时间:
    2005-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yoshimasa Tsuruoka;S. Ananiadou;Junichi Tsujii
  • 通讯作者:
    Yoshimasa Tsuruoka;S. Ananiadou;Junichi Tsujii
Assessment of prediction accuracy of protein function from protein-protein interaction data
  • DOI:
    10.1002/yea.706
  • 发表时间:
    2001-04-01
  • 期刊:
  • 影响因子:
    2.6
  • 作者:
    Hishigaki, H;Nakai, K;Takagi, T
  • 通讯作者:
    Takagi, T
Automatic extraction of biological functions using semi-automatically gathered biological terms, development and applications of ontology on OMICS rearch
利用半自动收集的生物术语自动提取生物功能,本体论在组学研究中的发展和应用
A practical partial parser for biomedical literature summarization
一种实用的生物医学文献摘要部分解析器
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

TAKAGI Toshihisa其他文献

TAKAGI Toshihisa的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('TAKAGI Toshihisa', 18)}}的其他基金

Reconstruction and Analysis of Life Systems Using Knowledge-Processing Technology
利用知识处理技术重建和分析生命系统
  • 批准号:
    17017002
  • 财政年份:
    2005
  • 资助金额:
    $ 117.25万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
Support for data analysis and sharing
支持数据分析和共享
  • 批准号:
    17020001
  • 财政年份:
    2005
  • 资助金额:
    $ 117.25万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
Systems genomics towards system-level understanding of life
系统基因组学对生命的系统级理解
  • 批准号:
    16063101
  • 财政年份:
    2004
  • 资助金额:
    $ 117.25万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
Genome Information Science
基因组信息科学
  • 批准号:
    12207001
  • 财政年份:
    2000
  • 资助金额:
    $ 117.25万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas

相似国自然基金

微单倍型全基因组数据库建设、筛选与多种测序技术体系构建及其法医学应用研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
基于多组学数据构建可翻译非编码RNA数据库解析基因组暗物质
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
利用大样本全基因组单倍型数据库解析猪肌纤维性状主效位点
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    35 万元
  • 项目类别:
    地区科学基金项目
细菌种水平基因组特异序列挖掘及数据库的建立
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    24 万元
  • 项目类别:
    青年科学基金项目
基于基因共线性的植物基因组学数据库建设研究
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    58 万元
  • 项目类别:
    面上项目

相似海外基金

Pathway-level transcriptional causal mechanism of sleep disordered breathing
睡眠呼吸障碍的通路水平转录因果机制
  • 批准号:
    10730266
  • 财政年份:
    2023
  • 资助金额:
    $ 117.25万
  • 项目类别:
Quantification and Characterization of Bulk and L1CAM-Enriched Exosomal MicroRNA Cargo in Healthy Young People
健康年轻人体内富含 L1CAM 的外泌体 MicroRNA 货物的定量和表征
  • 批准号:
    10554441
  • 财政年份:
    2022
  • 资助金额:
    $ 117.25万
  • 项目类别:
Targeting GPR68 as a novel modulator of osteoarthritis
靶向 GPR68 作为骨关节炎的新型调节剂
  • 批准号:
    10452259
  • 财政年份:
    2022
  • 资助金额:
    $ 117.25万
  • 项目类别:
Quantification and Characterization of Bulk and L1CAM-Enriched Exosomal MicroRNA Cargo in Healthy Young People
健康年轻人体内富含 L1CAM 的外泌体 MicroRNA 货物的定量和表征
  • 批准号:
    10353466
  • 财政年份:
    2022
  • 资助金额:
    $ 117.25万
  • 项目类别:
Dictyostelium Community Resource
盘基网柄菌社区资源
  • 批准号:
    10247062
  • 财政年份:
    2020
  • 资助金额:
    $ 117.25万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了