基于信息融合的生物医学文本高性能聚类研究
项目介绍
AI项目解读
基本信息
- 批准号:60903076
- 项目类别:青年科学基金项目
- 资助金额:17.0万
- 负责人:
- 依托单位:
- 学科分类:F0213.生物信息计算与数字健康
- 结题年份:2012
- 批准年份:2009
- 项目状态:已结题
- 起止时间:2010-01-01 至2012-12-31
- 项目参与者:沙朝锋; 董启文; 袁伟; 叶程广; 吴智昊; 陈益青;
- 关键词:
项目摘要
生物医学文本聚类能够帮助生物医学研究人员迅速找到他们最感兴趣的文档,发现不同生物医学研究课题之间的潜在联系,为产生新的科学假设奠定基础。本项目的主要目标是开发出高性能生物医学文本聚类算法,为生物医学研究者浏览和查找所需信息提供便利。本课题主要基于信息融合的思想,针对当前生物医学文本聚类研究中利用单一信息(主要是内容信息)的缺陷,有机融合生物医学文本的三种重要信息:内容信息、生物医学文本所特有的语义信息(由人工标注的医学主题词MeSH)和文献引用信息,以提供最好的聚类性能。拟解决的科学问题包括(1)如何设置内容信息中标题、摘要和MeSH之间的权重。(2)如何计算生物医学文档之间的语义相似度。(3)如何有效融合不同种类信息提高聚类性能。本课题也可以为开发其他领域中需要融合不同种类信息的高性能聚类算法提供研究思路。
结项摘要
生物医学文本聚类通过将相似的文档聚在一起,不相似的文档尽量分开,能帮助用户有效的组织、概括、导航和定位生物医学文献信息,帮助生物医学研究人员解决信息过载的问题。本项目的主要目标是开发出高性能的聚类算法,从而为生物医学研究人员查找信息提供便利。项目顺利完成,基于信息融合思想,有机融合生物医学文本的多种重要信息如内容信息、生物医学文本特有的语义信息(人工标注的医学主题词)和文献引用信息等,从而提高聚类性能。本项目尤其在设计有效的融合算法方面取得了非常满意的研究成果。我们主要研究了三种融合策略:集成学习策略、全局相似度策略和半监督学习策略。在集成学习策略中,我们可以根据不同种类信息和算法计算聚类,然后在这些聚类结果基础上进行集成聚类,提高聚类效果的稳定性和健壮性。在全局相似度策略中,我们根据不同种类的信息计算各自的局部相似度,然后通过线性组合计算全局相似度,在此基础上进行聚类。在半监督聚类中,我们把文本内容信息作为主要信息,根据语义信息和全局内容信息作为附加信息生成约束条件,提出了一个新颖的半监督谱聚类算法SSNCut (Semi-Supervised Normalized Cut), 能够同时处理must-link和cannot-link,从而提高聚类性能。在从最大生物医学文本数据库MEDLINE产生的100个文本数据集上进行的实验表明,SSNCut在性能上不仅优于全局相似度方法,而且也优于多个常用的半监督聚类算法,如SS-NMF、Spectral Learning等。本课题研究成果也为其他领域中需要融合不同种类信息的各种应用提供了解决思路和启示。
项目成果
期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(2)
专利数量(0)
Efficient Semi-supervised MEDLINE Document Clustering with MeSH Semantic and Global Content Constraints
具有 MeSH 语义和全局内容约束的高效半监督 MEDLINE 文档聚类
- DOI:--
- 发表时间:--
- 期刊:IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics
- 影响因子:--
- 作者:Wei Feng;Jia Zeng;Hiroshi Mamitsuka;Shanfeng Zhu
- 通讯作者:Shanfeng Zhu
MetaMHC: a meta approach to predict peptides binding to MHC molecules
MetaMHC:预测与 MHC 分子结合的肽的元方法
- DOI:--
- 发表时间:--
- 期刊:Nucleic Acids Research
- 影响因子:14.9
- 作者:朱山风;Wenjian Zhou;Keiko Udaka;Hiroshi Mamitsuka;Xihao Hu
- 通讯作者:Xihao Hu
结合引文信息的生物医学文本聚类研究
- DOI:--
- 发表时间:--
- 期刊:计算机应用与软件
- 影响因子:--
- 作者:顾钧;郑晓东;张连明
- 通讯作者:张连明
Multiconstrained gene clustering based on generalized projections
基于广义投影的多约束基因聚类
- DOI:10.1186/1471-2105-11-164
- 发表时间:2010-03-31
- 期刊:BMC Bioinformatics
- 影响因子:3
- 作者:Zeng J;Zhu S;Liew AW;Yan H
- 通讯作者:Yan H
A consensus method for prioritising drug-associated target proteins
优先考虑药物相关靶蛋白的共识方法
- DOI:10.1504/ijdmb.2012.048197
- 发表时间:--
- 期刊:International Journal of Data Mining and Bioinformatics
- 影响因子:0.3
- 作者:Shu; Gang;Huang; Xiaodi;Zhu; Shanfeng
- 通讯作者:Shanfeng
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
朱山风的其他基金
人类基因相关临床表型预测的高效算法研究
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
大规模蛋白质功能预测的高效算法研究
- 批准号:61872094
- 批准年份:2018
- 资助金额:65.0 万元
- 项目类别:面上项目
大规模生物医学文献医学主题词的高精度自动标注研究
- 批准号:61572139
- 批准年份:2015
- 资助金额:63.0 万元
- 项目类别:面上项目
MHC II类分子亲和肽的高精度预测研究
- 批准号:61170097
- 批准年份:2011
- 资助金额:57.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}