面向大规模并行异构平台的生物通路海量文献挖掘方法及其应用研究
项目介绍
AI项目解读
基本信息
- 批准号:31501073
- 项目类别:青年科学基金项目
- 资助金额:19.0万
- 负责人:
- 依托单位:
- 学科分类:C0608.生物数据资源与分析方法
- 结题年份:2018
- 批准年份:2015
- 项目状态:已结题
- 起止时间:2016-01-01 至2018-12-31
- 项目参与者:崔英博; 刘天航; 易任娇; 王传立; 高龙; 郭西风;
- 关键词:
项目摘要
Information about genes and pathways involved in a disease is usually 'buried' in scientific literature, making it difficult to perform systematic studies for a comprehensive understanding. Text mining has provided opportunities to retrieve and extract most relevant information from literature, and thus might enable collecting and exploring relevant data to a certain disease systematically. However, text mining is also challenged by the problem of low data quality. Based on existing studies, the grant applicants consider that using biological pathways, which is one of the central concepts in systems biology, as the object for text mining and integrating information from curated pathway databases is one of the possible solutions. In this proposal, the applicants plan to study about the named entity recognition and normalization problem of biological pathways and apply it in the detection of molecular interactions from literature for the construction of molecular interaction network, which can provide a solid foundation of systematically understanding complex diseases with high quality data support. In terms of the challenges brought about by the daunting amount of literature, the applicants plan to rely on a massively parallel heterogeneous computing platform and perform large-scale analysis of all available biomedical literature and releases results for free, which could possibly boost disease diagnosis and the discoveries of novel biomarkers.
与疾病关联的基因和通路及他们之间的关系往往淹没在科学文献中,使得为获得对疾病分子机理全面理解的系统性研究十分困难。文本挖掘提供了从文献中提取和挖掘最相关信息的方法和手段,使得自动获取与疾病相关的分子信息称为可能。但也存在挖掘出的信息质量不高等问题。基于已有的研究基础,申请人认为,将系统生物学中的重要概念生物通路作为文本挖掘处理的对象之一,并利用经过审编和标注的通路数据库信息,将可以解决相关问题。本项目中,申请人拟通过研究关于生物通路的命名实体识别及其标准化方法,将其用于文献中分子相互作用的检测,并用于构建分子互作用网络,从而为系统性地理解复杂疾病提供高质量的基础。而针对海量文献所带来的挑战,申请人拟依托于大规模并行异构计算平台实施并行文献挖掘,完成对生物医学文献库全库的分析,并将分析和处理的结果发布,以期对疾病诊疗、生物标记的发现起到巨大的促进作用。
结项摘要
为对疾病的分子机理的系统性研究,需要大量关于与疾病关联的基因和通路等信息。这些信息往往蕴含在非结构的生物医学文献中。海量生物医学文献是一种很重要的生物医学大数据。但是由于计算机无法从非结构文本中直接获取信息,因此需要采用文献挖掘技术。文献挖掘提供了从文献中提取和挖掘相关信息的方法和手段。但已有方法也面临着挖掘出的信息质量不高、计算耗时、缺乏实际应用等问题。.本项目以海量生物医学文献为主要的处理、挖掘对象,以大规模异构超级计算机天河二号为主要的计算平台,通过部署文献库、对相关工具软件进行移植和优化、对文献挖掘中的命名实体识别和关系提取等关键算法进行改进、设计合理高效的负载均衡策略和任务调度实现大规模并行分析处理等方式,实现对海量生物医学文献的快速、准确分析。对已有的命名实体识别、关系提取方法进行了改进,在天河二号上对近3000万篇文献(包括摘要和免费全文)进行了挖掘分析,并已将挖掘结果初步应用到实际系统中,为临床NGS数据解读、疾病理解和诊疗等提供了坚实的知识基础。项目取得了较好的成果,成果形式发表高水平SCI论文8篇,申请专利两项,其中已授权一项),培养硕士研究生3名,博士研究生4名。具体包括以下几个方面:.(1).基于长短期记忆模型的关系提取方法;.(2).基于天河二号的疾病与变异关系并行挖掘框架.(3).疾病NER指代分析改进和变异NER的细节属性提取.(4).关系提取实例应用-CNVdigest.(5).Orion :天河二号上的大数据处理平台.(6).疾病和变异关系提取及其在NGS数据智能解读系统GTX.VCFDigest中的应用..从总体上讲,本项目的研究达到了预期目标。今后应继续促进应用深度学习方法和并行算法进行生物医学自然语言处理过程,同时引入相关的知识图谱技术,形成现实问题、理论研究和实际应用的良性循环。.
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(2)
An Interface for Biomedical Big Data Processing on the Tianhe-2 Supercomputer.
天河二号超级计算机生物医学大数据处理接口
- DOI:10.3390/molecules22122116
- 发表时间:2017-12-01
- 期刊:Molecules (Basel, Switzerland)
- 影响因子:--
- 作者:Yang X;Wu C;Lu K;Fang L;Zhang Y;Li S;Guo G;Du Y
- 通讯作者:Du Y
ParaBTM: A Parallel Processing Framework for Biomedical Text Mining on Supercomputers.
ParaBTM:超级计算机上生物医学文本挖掘的并行处理框架
- DOI:10.3390/molecules23051028
- 发表时间:2018-04-27
- 期刊:Molecules (Basel, Switzerland)
- 影响因子:--
- 作者:Xing Y;Wu C;Yang X;Wang W;Zhu E;Yin J
- 通讯作者:Yin J
Constructing a molecular interaction network for thyroid cancer via large-scale text mining of gene and pathway events.
通过基因和通路事件的大规模文本挖掘构建甲状腺癌的分子相互作用网络
- DOI:10.1186/1752-0509-9-s6-s5
- 发表时间:2015
- 期刊:BMC systems biology
- 影响因子:--
- 作者:Wu C;Schwartz JM;Brabant G;Peng SL;Nenadic G
- 通讯作者:Nenadic G
Role of viscoelasticity in non-equilibrium steady states of sheared entangled polymer mixtures
粘弹性在剪切缠结聚合物混合物非平衡稳态中的作用
- DOI:10.1177/1687814017715566
- 发表时间:2017-08
- 期刊:ADVANCES IN MECHANICAL ENGINEERING
- 影响因子:2.1
- 作者:Huang Gang;Guo Xiao-Wei;Wu Cheng-Kun;Zhang Xiang;Yang Canqun
- 通讯作者:Yang Canqun
GT-WGS: an efficient and economic tool for large-scale WGS analyses based on the AWS cloud service.
GT-WGS:基于AWS云服务的大规模WGS分析的高效、经济的工具
- DOI:10.1186/s12864-017-4334-x
- 发表时间:2018-01-19
- 期刊:BMC genomics
- 影响因子:4.4
- 作者:Wang Y;Li G;Ma M;He F;Song Z;Zhang W;Wu C
- 通讯作者:Wu C
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
网络入侵检测系统中基于多核平台的模式匹配技术研究
- DOI:--
- 发表时间:--
- 期刊:计算机工程与科学
- 影响因子:--
- 作者:程杰仁;吴诚堃;殷建平;蔡志平
- 通讯作者:蔡志平
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}