文本自动分类中样本重要性模型及应用研究
项目介绍
AI项目解读
基本信息
- 批准号:61272212
- 项目类别:面上项目
- 资助金额:70.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2016
- 批准年份:2012
- 项目状态:已结题
- 起止时间:2013-01-01 至2016-12-31
- 项目参与者:罗远胜; 左家莉; 揭安全; 吴根秀; 王晓庆; 汤皖宁; 马俏; 廖亚男; 胡海亮;
- 关键词:
项目摘要
Text automated categorization is important to analyze and organize the Internet data effectively. The main challenges of automated categorization are massive scale and high dimensionality of the data. A direct and effective approach is to reduce computing complexity using the sample reduction or dimensionality reduction, which can improve the classifier's generalization ability and without loss of classification performance. The most of sample selection methods are based on statistical sampling theory, in which the samples should obey independent identical distribution(iid). Boosting and large margin approaches imply the thought of sample selection, but they depend on the specific algorithms..Inspired by the theory of worked example in cognitive science,this project proposes sample importance principle. The sample importance is measured by the contribution of samples to classification without any statistical assumption . In order to derive sample importance model that is not depend on sepecific classifiers, we will provide the approaches of automatically identifying class boundaries in the training data set by using random process and high-dimensional data analysis theory to design the algorithms of computing sample importance and to give mathematical proof. For example, we can exploit a random walks algorithm to find the boundary set and to compute the boundariness for every sample..Futhermore, the sample importance will combine with existing machine learning methods to improve the performance. We will present some novelty methods for selecting features and samples by building the dual relationship between sample importance and feature importance. The work will provide new ideas and methods for text categorizaiton and general classificaiton in machine learning.
文本自动分类在有效分析和利用因特网数据方面有着重要作用,但这些数据的海量性和高维性是自动分类面临的主要难题。一种直接有效的解决途径是在保证学习算法分类性能的前提下,通过样本集约简或维数约简降低计算复杂性,并提高分类器的泛化能力。现有样本选择方法多基于统计抽样技术,需独立同分布假设;Boosting和最大间隔方法虽隐含样本选择思想,但依赖于具体的分类算法。本项目受认知科学中的样例理论启发,不对训练样本的分布做任何统计假设,从样本角度出发,根据样本对分类的贡献程度,提出样本重要性原理;拟应用随机过程和高维数据统计分析理论,给出训练集中类边界样本的自动判别方法,建立不依赖于具体分类器的样本重要性模型,研究样本重要性计算算法,并给出理论证明;结合已有分类算法,研究融合样本权重的分类算法;构建样本重要性与特征重要性的对偶关系,研究相应的特征选择和样本选择的新方法,为文本分类及一般分类问题提供新的思路
结项摘要
Web数据的海量性和高维性是自动分类面临的主要难题。一种直接有效的解决途径是在保证学习算法分类性能的前提下,通过样本集约简或维数约简降低计算复杂性,并提高分类器的泛化能力。本项目受认知科学中的样例理论启发,从样本角度出发,根据样本对分类或检索任务的贡献程度,提出样本重要性原理,并将其应用于文本分类和信息检索模型中。课题组成员共发表相关论文28篇,成功承办了第四届自然语言处理与中文计算国际会议(NLP&CC 2015)、第五届全国社会媒体处理大会(SMP2016)和中国计算机学会学科前沿讲习班第五十九期(CCF ADL 59),培养11名硕士,在读博士2名,邀请伊利诺伊大学香槟分校韩家炜教授、清华大学黄昌宁教授等知名学者来校讲学和交流。主要研究工作有:. 1、样本重要性模型研究:基于随机过程和高维数据统计分析理论,随机游走计算每个样本点的边界值,并计算样本重要性得分,建立不依赖于具体分类器的样本重要性模型;基于图论分析理论,构造Markov网络去度量样本的重要性,根据样本的特性进而使用团、层次依赖等关系分析样本的关联关系。. 2、样本重要性模型应用研究:将其应用于文本分类中,相应提出融合KNN方法新的分类模型—SI-KNN研究样本重要性计算算法;使用Markov网络刻画信息检索中的文档关系,通过文档团度量文档样本与查询的相关性、将文档样本划分为句子、计算双语主题的相关性、与查询相关的近邻文档构成文档关系图进行样本重要模型研究。. 3、基于样本重要性的特征选择方法研究:应用样本重要性指标计算文本特征的重要性程度,并进行特征选择;使用Markov网络中的词对文档和查询的贡献程度表示词的重要性,在层次依赖的Markov网络发现“重要”的词;使用稀疏编码对特征重构,通过Markov随机游走的方式构建特征之间的语义网络关系图,而后计算特征的重要性;提取Markov网络中的词团信息来量化词间的混合相关性。
项目成果
期刊论文数量(25)
专著数量(0)
科研奖励数量(0)
会议论文数量(3)
专利数量(0)
面向新闻的情感关键句抽取与判定
- DOI:--
- 发表时间:2015
- 期刊:江西师范大学学报(自然科学版)
- 影响因子:--
- 作者:罗文兵;徐雄飞;王明文;左家莉
- 通讯作者:左家莉
中文微博句子倾向性分类中特征抽取研究
- DOI:10.16357/j.cnki.issn1000-5862.2015.03.13
- 发表时间:2015
- 期刊:江西师范大学学报(自然科学版)
- 影响因子:--
- 作者:徐雄飞;徐凡;王明文;左家莉;罗文兵
- 通讯作者:罗文兵
跨语言信息检索中的双语主题相关模型
- DOI:--
- 发表时间:2013
- 期刊:小型微型计算机系统
- 影响因子:--
- 作者:罗远胜;王明文;勒中坚;张华伟
- 通讯作者:张华伟
协同过滤中一种项目综合相似度计算方法
- DOI:--
- 发表时间:2015
- 期刊:山西大学学报(自然科学版)
- 影响因子:--
- 作者:黄传飞;万剑怡;王明文;李茂西
- 通讯作者:李茂西
基于词项共现关系图模型的中文观点句识别研究
- DOI:--
- 发表时间:2015
- 期刊:中文信息学报
- 影响因子:--
- 作者:王明文;付翠琴;徐凡;洪欢
- 通讯作者:洪欢
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
Modified Information Retrieval Model Based on Markov Network
基于马尔可夫网络的改进信息检索模型
- DOI:10.1007/978-3-642-35211-9_40
- 发表时间:2012-12
- 期刊:Communications in Computer and Information Science
- 影响因子:--
- 作者:王明文;万剑怡;吴根秀;吴水秀
- 通讯作者:吴水秀
结合句子级别检索的信息检索模型
- DOI:--
- 发表时间:2016
- 期刊:中文信息学报
- 影响因子:--
- 作者:左家莉;王明文;吴水秀;万剑怡
- 通讯作者:万剑怡
具有加权顾前势的交通流模型
- DOI:--
- 发表时间:2014
- 期刊:Acta Physica Sinica
- 影响因子:1
- 作者:郑伟范;张继业;王明文;唐东明
- 通讯作者:唐东明
基于MapReduce的粒子群投影寻踪模型的设计与实现
- DOI:--
- 发表时间:--
- 期刊:江西师范大学学报(自然科学版)
- 影响因子:--
- 作者:黄奕平;万剑怡;万中英;王明文
- 通讯作者:王明文
基于结果聚类分析的个性化推荐模型
- DOI:--
- 发表时间:--
- 期刊:广西师范大学学报(自然科学版)
- 影响因子:--
- 作者:罗文兵;吴润秀;王明文;朱莹婷;熊超
- 通讯作者:熊超
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
王明文的其他基金
无感情景下教师多模态教学言行的统一表示与匹配研究
- 批准号:62266023
- 批准年份:2022
- 资助金额:34.00 万元
- 项目类别:地区科学基金项目
无感情景下教师多模态教学言行的统一表示与匹配研究
- 批准号:
- 批准年份:2022
- 资助金额:34 万元
- 项目类别:地区科学基金项目
基于概率度量空间的词表示及词语相关性度量研究
- 批准号:61876074
- 批准年份:2018
- 资助金额:62.0 万元
- 项目类别:面上项目
基于潜在语义对偶空间的新词翻译自动识别方法研究
- 批准号:61462045
- 批准年份:2014
- 资助金额:45.0 万元
- 项目类别:地区科学基金项目
基于潜在语义对偶空间的跨语言信息检索理论和算法研究
- 批准号:60963014
- 批准年份:2009
- 资助金额:22.0 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}