基于谱聚类的文本聚类集成方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    60975042
  • 项目类别:
    面上项目
  • 资助金额:
    32.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0603.机器学习
  • 结题年份:
    2012
  • 批准年份:
    2009
  • 项目状态:
    已结题
  • 起止时间:
    2010-01-01 至2012-12-31

项目摘要

聚类分析可以发现无结构文本集中的潜在概念,并用这些概念来给出文本集的概要或者标签,因此,它可以有效地组织和搜索大规模文本集。由于文本数据的高维稀疏性,很多聚类算法并不适用于文本聚类,另外,由于文本数据的海量性,对算法的计算复杂度也有很高要求。. 聚类集成技术可以有效克服高效的超球K均值算法的缺点,提高其精度和稳定性。然而现有的聚类集成技术都存在很多问题,如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。鉴于谱聚类算法的诸多优点,本课题将其引入到文本聚类集成问题中,采用"代数变换"、"间接求解"等策略来克服谱聚类算法计算复杂度过高的缺点,涉及高速、高质量文本聚类集成模型,为海量规模的数据挖掘提供实用处理技术。本课题的研究成果可以用于文本摘要、语义分析和信息检索等多个应用领域。因而,本课题的开展具有重要的理论意义和实际应用价值,具有广阔的应用前景。

结项摘要

本项目以文本聚类为应用背景,针对文本聚类集成中的关键问题进行了研究,取得的创新性研究成果包括:.(1)鉴于谱聚类方法的诸多优点,本项目将基于矩阵扰动理论和谱图理论的谱聚类算法引入到文本聚类集成问题中。针对谱聚类算法计算复杂度高的问题,本项目基于代数变换,首先将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题,并进一步转化为小规模矩阵的特征值分解问题。由此设计了两个不同的文本聚类集成谱算法SMSA和TMSA。.(2)本项目研究了谱聚类算法的关键思想,从求解“最佳”子空间出发,同时推导出文本和超边的低维嵌入,由此设计了两个基于子空间相似度的聚类集成算法SSICA和SSDCA,实验结果表明:SSICA和SSDCA都获得了比基于图划分的聚类集成算法更优越的结果;SSICA的聚类质量略高于SSDCA。本项目进一步泛化SSICA,设计出基于低维嵌入的文本聚类集成方法。该方法首先通过不同的谱聚类算法获得了超边的低维嵌入;随后通过映射的复合间接获得了文本的低维嵌入;最后根据文本在低维空间下的坐标使用简单K均值算法聚类。.(3)本项目将非负矩阵分解(NMF)引入到文本聚类集成问题中,设计了BNMF算法;由于NMF算法收敛速度较慢、易于收敛到较差的局部最优解,本项目使用K均值初始化NMF,设计出NMFK算法;另外,针对K均值算法随机初始化所带来的聚类结果不稳定问题,本项目使用最小最大原则确定K均值算法的初值,设计出NMFKMMP算法。.(4)超球K均值算法不能有效识别非超球状的簇,因此易于产生精度较低的文本聚类集成成员。为了进一步提高文本聚类集成算法的聚类质量,本项目在集成成员生成阶段引入了CHAMELEON算法的关键思想——“分裂—合并”(DM)策略。。首先在聚类成员生成阶段运行使用DM策略的SKM算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用Ward算法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用本项目设计的聚类集成算法进行集成。. 实验结果表明,这些方法可以有效解决文本聚类集成问题。

项目成果

期刊论文数量(30)
专著数量(0)
科研奖励数量(0)
会议论文数量(9)
专利数量(0)
Phrase alignment based on combination of multiple strategies
基于多种策略组合的短语对齐
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    Journal of Software
  • 影响因子:
    --
  • 作者:
    Zhang, Chun-Xiang;Gao, Xue-Yao;Lu, Zhi-Mao;Sun, Da-Song;Liu, Yong
  • 通讯作者:
    Liu, Yong
Extract reordering templates for statistical machine translation
提取统计机器翻译的重新排序模板
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    International Journal of Digital Content Technology and Its Applications
  • 影响因子:
    --
  • 作者:
    Chun-Xiang Zhang;Xue-Yao Gao;卢志茂
  • 通讯作者:
    卢志茂
基于快速谱聚类的图像分割算法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    应用科技
  • 影响因子:
    --
  • 作者:
    李纯;卢志茂;杨朋
  • 通讯作者:
    杨朋
基于HHT和OSF的复杂环境语音端点检测
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    电子与信息学报
  • 影响因子:
    --
  • 作者:
    卢志茂;金辉
  • 通讯作者:
    金辉
一种HHT谱矩阵的车内噪声语音端点检测
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机工程与应用
  • 影响因子:
    --
  • 作者:
    刘柏森;卢志茂;金辉;孙美玲
  • 通讯作者:
    孙美玲

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

A Machine Learning Approach to Query Generation in Plagiarism Source Retrieval
抄袭源检索中查询生成的机器学习方法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    Frontiers of Information Technology & Electronic Engineering
  • 影响因子:
    3
  • 作者:
    孔蕾蕾;卢志茂;齐浩亮;韩中元
  • 通讯作者:
    韩中元
基于相似度矩阵的谱聚类集成图像分割
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    传感器与微系统
  • 影响因子:
    --
  • 作者:
    张琦;卢志茂;徐森;刘晨;隋毅
  • 通讯作者:
    隋毅
一种使用证据累积的文本聚类谱算法 一种使用证据累积的文本聚类谱算法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    哈尔滨工程大学学报(EI)
  • 影响因子:
    --
  • 作者:
    卢志茂;徐森;顾国昌
  • 通讯作者:
    顾国昌
基于无指导机器学习的全文词义自动标注方法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    自动化学报
  • 影响因子:
    --
  • 作者:
    刘挺;卢志茂;李生
  • 通讯作者:
    李生
基于信息增益改进贝叶斯模型的汉语词义消歧
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    电子与信息学报(EI)
  • 影响因子:
    --
  • 作者:
    张汝波;范冬梅;卢志茂;潘树燊
  • 通讯作者:
    潘树燊

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

卢志茂的其他基金

基于语义范畴扩展的汉语词义消歧方法研究
  • 批准号:
    60603092
  • 批准年份:
    2006
  • 资助金额:
    27.0 万元
  • 项目类别:
    青年科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码