文本自动分类中样本重要性模型及应用研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61272212
  • 项目类别:
    面上项目
  • 资助金额:
    70.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2016
  • 批准年份:
    2012
  • 项目状态:
    已结题
  • 起止时间:
    2013-01-01 至2016-12-31

项目摘要

Text automated categorization is important to analyze and organize the Internet data effectively. The main challenges of automated categorization are massive scale and high dimensionality of the data. A direct and effective approach is to reduce computing complexity using the sample reduction or dimensionality reduction, which can improve the classifier's generalization ability and without loss of classification performance. The most of sample selection methods are based on statistical sampling theory, in which the samples should obey independent identical distribution(iid). Boosting and large margin approaches imply the thought of sample selection, but they depend on the specific algorithms..Inspired by the theory of worked example in cognitive science,this project proposes sample importance principle. The sample importance is measured by the contribution of samples to classification without any statistical assumption . In order to derive sample importance model that is not depend on sepecific classifiers, we will provide the approaches of automatically identifying class boundaries in the training data set by using random process and high-dimensional data analysis theory to design the algorithms of computing sample importance and to give mathematical proof. For example, we can exploit a random walks algorithm to find the boundary set and to compute the boundariness for every sample..Futhermore, the sample importance will combine with existing machine learning methods to improve the performance. We will present some novelty methods for selecting features and samples by building the dual relationship between sample importance and feature importance. The work will provide new ideas and methods for text categorizaiton and general classificaiton in machine learning.
文本自动分类在有效分析和利用因特网数据方面有着重要作用,但这些数据的海量性和高维性是自动分类面临的主要难题。一种直接有效的解决途径是在保证学习算法分类性能的前提下,通过样本集约简或维数约简降低计算复杂性,并提高分类器的泛化能力。现有样本选择方法多基于统计抽样技术,需独立同分布假设;Boosting和最大间隔方法虽隐含样本选择思想,但依赖于具体的分类算法。本项目受认知科学中的样例理论启发,不对训练样本的分布做任何统计假设,从样本角度出发,根据样本对分类的贡献程度,提出样本重要性原理;拟应用随机过程和高维数据统计分析理论,给出训练集中类边界样本的自动判别方法,建立不依赖于具体分类器的样本重要性模型,研究样本重要性计算算法,并给出理论证明;结合已有分类算法,研究融合样本权重的分类算法;构建样本重要性与特征重要性的对偶关系,研究相应的特征选择和样本选择的新方法,为文本分类及一般分类问题提供新的思路

结项摘要

Web数据的海量性和高维性是自动分类面临的主要难题。一种直接有效的解决途径是在保证学习算法分类性能的前提下,通过样本集约简或维数约简降低计算复杂性,并提高分类器的泛化能力。本项目受认知科学中的样例理论启发,从样本角度出发,根据样本对分类或检索任务的贡献程度,提出样本重要性原理,并将其应用于文本分类和信息检索模型中。课题组成员共发表相关论文28篇,成功承办了第四届自然语言处理与中文计算国际会议(NLP&CC 2015)、第五届全国社会媒体处理大会(SMP2016)和中国计算机学会学科前沿讲习班第五十九期(CCF ADL 59),培养11名硕士,在读博士2名,邀请伊利诺伊大学香槟分校韩家炜教授、清华大学黄昌宁教授等知名学者来校讲学和交流。主要研究工作有:. 1、样本重要性模型研究:基于随机过程和高维数据统计分析理论,随机游走计算每个样本点的边界值,并计算样本重要性得分,建立不依赖于具体分类器的样本重要性模型;基于图论分析理论,构造Markov网络去度量样本的重要性,根据样本的特性进而使用团、层次依赖等关系分析样本的关联关系。. 2、样本重要性模型应用研究:将其应用于文本分类中,相应提出融合KNN方法新的分类模型—SI-KNN研究样本重要性计算算法;使用Markov网络刻画信息检索中的文档关系,通过文档团度量文档样本与查询的相关性、将文档样本划分为句子、计算双语主题的相关性、与查询相关的近邻文档构成文档关系图进行样本重要模型研究。. 3、基于样本重要性的特征选择方法研究:应用样本重要性指标计算文本特征的重要性程度,并进行特征选择;使用Markov网络中的词对文档和查询的贡献程度表示词的重要性,在层次依赖的Markov网络发现“重要”的词;使用稀疏编码对特征重构,通过Markov随机游走的方式构建特征之间的语义网络关系图,而后计算特征的重要性;提取Markov网络中的词团信息来量化词间的混合相关性。

项目成果

期刊论文数量(25)
专著数量(0)
科研奖励数量(0)
会议论文数量(3)
专利数量(0)
面向新闻的情感关键句抽取与判定
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    江西师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    罗文兵;徐雄飞;王明文;左家莉
  • 通讯作者:
    左家莉
中文微博句子倾向性分类中特征抽取研究
  • DOI:
    10.16357/j.cnki.issn1000-5862.2015.03.13
  • 发表时间:
    2015
  • 期刊:
    江西师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    徐雄飞;徐凡;王明文;左家莉;罗文兵
  • 通讯作者:
    罗文兵
跨语言信息检索中的双语主题相关模型
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    小型微型计算机系统
  • 影响因子:
    --
  • 作者:
    罗远胜;王明文;勒中坚;张华伟
  • 通讯作者:
    张华伟
协同过滤中一种项目综合相似度计算方法
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    山西大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    黄传飞;万剑怡;王明文;李茂西
  • 通讯作者:
    李茂西
基于词项共现关系图模型的中文观点句识别研究
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    王明文;付翠琴;徐凡;洪欢
  • 通讯作者:
    洪欢

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

Modified Information Retrieval Model Based on Markov Network
基于马尔可夫网络的改进信息检索模型
  • DOI:
    10.1007/978-3-642-35211-9_40
  • 发表时间:
    2012-12
  • 期刊:
    Communications in Computer and Information Science
  • 影响因子:
    --
  • 作者:
    王明文;万剑怡;吴根秀;吴水秀
  • 通讯作者:
    吴水秀
结合句子级别检索的信息检索模型
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    左家莉;王明文;吴水秀;万剑怡
  • 通讯作者:
    万剑怡
具有加权顾前势的交通流模型
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    Acta Physica Sinica
  • 影响因子:
    1
  • 作者:
    郑伟范;张继业;王明文;唐东明
  • 通讯作者:
    唐东明
基于MapReduce的粒子群投影寻踪模型的设计与实现
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    江西师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    黄奕平;万剑怡;万中英;王明文
  • 通讯作者:
    王明文
基于结果聚类分析的个性化推荐模型
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    广西师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    罗文兵;吴润秀;王明文;朱莹婷;熊超
  • 通讯作者:
    熊超

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

王明文的其他基金

无感情景下教师多模态教学言行的统一表示与匹配研究
  • 批准号:
    62266023
  • 批准年份:
    2022
  • 资助金额:
    34.00 万元
  • 项目类别:
    地区科学基金项目
无感情景下教师多模态教学言行的统一表示与匹配研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    34 万元
  • 项目类别:
    地区科学基金项目
基于概率度量空间的词表示及词语相关性度量研究
  • 批准号:
    61876074
  • 批准年份:
    2018
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目
基于潜在语义对偶空间的新词翻译自动识别方法研究
  • 批准号:
    61462045
  • 批准年份:
    2014
  • 资助金额:
    45.0 万元
  • 项目类别:
    地区科学基金项目
基于潜在语义对偶空间的跨语言信息检索理论和算法研究
  • 批准号:
    60963014
  • 批准年份:
    2009
  • 资助金额:
    22.0 万元
  • 项目类别:
    地区科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码