异质文本主题挖掘研究及应用于癌症子类型的发现

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61703362
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    21.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0603.机器学习
  • 结题年份:
    2020
  • 批准年份:
    2017
  • 项目状态:
    已结题
  • 起止时间:
    2018-01-01 至2020-12-31

项目摘要

Topic modeling has made important progress towards generating high-level knowledge from a large corpus, has been widely applied in machine learning field. Existing topic modelings were designed for the properties of long text corpus or short text corpus separately without considering the propoerties of heterogeneous corpus including both long and short texts. In this project, we formulate a novel problem how to extract latent topics from a heterogeneous corpus (HTTM), and study several key issues in this problem. The detailed research contents are as follows: (1) Unlike previous work for any type of texts under single assumption, we will propose an effective heterogeneous text topic modeling; (2) For finding the appropriate number of topics automatically, we will design a HTTM model that can infer the number of topics; (3) Since somatic mutation profiles are extremely sparse, we will propose a heterogeneous topic modeling by incorporating somatic tumor genomes with gene networks, and apply for stratification of cancer into informative subtypes. The research findings will be beneficial to improve topic modeling on the domain of text mining, and expand the scope of applications of topic modeling to the tasks with heterogeneous texts.
主题模型能够有效的从文档集合中挖掘潜在的主题结构,已经在机器学习领域得到广泛的应用。已有的主题模型分别针对长文本或者短文本的特性进行设计,并没有考虑即包含长文本也包含短文本的异质文档集合的异质性。本课题针对异质文档集合,提出从异质文档中发现隐含主题(Heterogeneous Text Topic Modeling, HTTM)的研究问题,并解决其中若干关键问题。具体如下: (1)设计有效的异质文本主题模型,解决了已有主题模型针对文本集合只采用单一假设的问题;(2)构建自动学习主题数目的HTTM模型,解决文档集合中主题数目难确定的问题;(3)构建基于体细胞肿瘤基因网络的异质主题模型,并应用在癌症突变数据的子类型发现,解决了基因突变数据中的稀疏问题。研究成果有助于完善主题模型在文本挖掘领域的研究,扩展主题模型在异质数据处理中的应用。

结项摘要

主题模型能够有效的从文档集合中挖掘潜在的主题结构,已经在机器学习领域得到广泛的应用。本项目从异质文本的特定、主题数目难确定、主题模型的稳定性以及深度学习等前沿思想出发,深入研究了异质文本主题模型和聚类方法的构建,并在癌症子类型发现、文档摘要以及文本简化等方面开展了相关应用研究。该项目取得了较好的研究成果,完成的创新工作总结如下:. (1)提出了一种基于Pitman-Yor过程的新模型来自动发现本文中主题数目。具体而言,每个文本选择一个活动主题或利用Pitman-Yor过程导出的概率选择新的一个主题。在真实数据上进行实验,相对已有的算法,实验结果显示该模型具有更好的结果。. (2)为了解决主题模型的不稳定问题,提出了一种集成的NMF算法,通过使用循环学习速率计划训练单个NMF算法,沿着优化路径其收敛到几个局部最小值优化路径。通过真实的数据进行实验,实验结果显示该算法具有更好的性能。. (3)利用异质长度文本主题模型,提取一种基于读者感知的多文档摘要方法。利用异质主题模型学习的知识如文档中主题的分布和主题中词的分布,对原文档中所有的句子和所有的主题计算主题中每个句子的概率,从而选择每个主题中代表性的句子作为摘要。. (4)开展了癌症子类型和文本简化方面的应用研究,建立了面向具体任务的有效算法,促进了相关应用的发展。. 上述工作已在国内外学术期刊和会议上发表8篇论文,其中7篇期刊论文,1篇会议论文;申请发表专利3项;培养硕士研究生5人。

项目成果

期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(1)
专利数量(3)
Short Text Topic Modeling Techniques, Applications, and Performance: A Survey
短文本主题建模技术、应用和性能:调查
  • DOI:
    10.1109/tkde.2020.2992485
  • 发表时间:
    2022-03-01
  • 期刊:
    IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
  • 影响因子:
    8.9
  • 作者:
    Qiang, Jipeng;Qian, Zhenyu;Wu, Xindong
  • 通讯作者:
    Wu, Xindong
Short text clustering based on Pitman-Yor process mixture model
基于Pitman-Yor过程混合模型的短文本聚类
  • DOI:
    10.1007/s10489-017-1055-4
  • 发表时间:
    2018
  • 期刊:
    Applied Intelligence
  • 影响因子:
    5.3
  • 作者:
    Qiang Jipeng;Li Yun;Yuan Yunhao;Wu Xindong
  • 通讯作者:
    Wu Xindong
Heterogeneous-Length Text Topic Modeling for Reader-Aware Multi-Document Summarization
用于读者感知的多文档摘要的异构长度文本主题建模
  • DOI:
    10.1145/3333030
  • 发表时间:
    2019-08
  • 期刊:
    ACM Transactions on Knowledge Discovery from Data
  • 影响因子:
    3.6
  • 作者:
    Qiang Jipeng;Chen Ping;Ding Wei;Wang Tong;Xie Fei;Wu Xindong
  • 通讯作者:
    Wu Xindong
Unsupervised Statistical Text Simplification
无监督统计文本简化
  • DOI:
    10.1109/tkde.2019.2947679
  • 发表时间:
    2019-10
  • 期刊:
    IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
  • 影响因子:
    8.9
  • 作者:
    强继朋;吴信东
  • 通讯作者:
    吴信东
Clustering Sparse Data With Feature Correlation With Application to Discover Subtypes in Cancer.
将稀疏数据与特征相关性进行聚类以发现癌症亚型
  • DOI:
    10.1109/access.2020.2982569
  • 发表时间:
    2020
  • 期刊:
    IEEE ACCESS
  • 影响因子:
    3.9
  • 作者:
    Qiang, Jipeng;Ding, Wei;Kuijjer, Marieke;Quackenbush, John;Chen, Ping
  • 通讯作者:
    Chen, Ping

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

满足非重叠条件的带有通配符序列模式挖掘
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    小型微型计算机系统
  • 影响因子:
    --
  • 作者:
    谢飞;强继朋
  • 通讯作者:
    强继朋

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

强继朋的其他基金

基于无监督学习的文本内容精简方法研究
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    58 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码