面向不平衡分类任务的主动学习方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61305058
- 项目类别:青年科学基金项目
- 资助金额:23.0万
- 负责人:
- 依托单位:
- 学科分类:F0603.机器学习
- 结题年份:2016
- 批准年份:2013
- 项目状态:已结题
- 起止时间:2014-01-01 至2016-12-31
- 项目参与者:高尚; 左欣; 秦斌; 洪淑芳; 袁玉龙; 李文龙;
- 关键词:
项目摘要
Active learning is one of major research fields in machine learning and data mining. It can reduce the sample complex by actively selecting the samples to learn,further reduce label costs by human.However, traditional active learning algorithms often fail to produce excellent enough classification performance for skewed classification tasks, due to its learning process will be destroyed by imbalanced unlabeled sample distribution. This project will first analyze the features of pool-based and stream-based imbalanced classification tasks, respectively. Then the project will research the strategies to alleviate the effect of class imbalance from three aspects, which correspond to three key procedures in active learning: query sample selection, balance control and stopping decision. Based on the work above, an effective active learning algorithm, which is specifically designed for imbalanced classification tasks with unbabeled samples, can be proposed. Furthermore, this project will also investigate the structure features of multiclass imbalanced classification tasks and present effective active learning algorithms. The research findings can be widely applied in many real fields, including financial fraud detection, network intrusion detection, spam filtering, video monitoring, Bioinformatics etc., thus this research is important for both theory and application.
主动学习是机器学习及数据挖掘领域研究的重要方向之一,该技术通过主动选择学习样例的方式,可降低学习算法的样本复杂度,从而减少手工标注的代价。然而,当将传统的主动学习算法应用于不平衡分类任务时,其学习过程可能会受到无标记样本不平衡分布的影响,使算法难以获得令人满意的学习效果。本项目分别根据数据池和数据流等两类不平衡分类任务各自的特点,从"查询样本"的选择﹑学习过程的"平衡控制"及学习停止条件的判定等三个影响主动学习性能的关键步骤入手,研究可缓解不平衡样本分布影响的有效策略,进而提出适用于不平衡分类任务的主动学习算法。此外,还将根据多类不平衡分类任务自身的结构特点,扩展已有的研究成果,提出具有针对性的面向多类不平衡分类任务的主动学习算法。项目的研究成果有望在金融欺诈检测﹑网络入侵检测﹑垃圾邮件过滤、文本分类﹑视频监控及生物信息学等多个领域得到实际应用,因此具有较重要的理论与应用价值。
结项摘要
类别不平衡学习与主动学习均是机器学习与数据挖掘领域的重要研究方向,在现实世界中也均具有广泛的应用价值。然而,前人工作却很少考虑将上述两类技术结合使用,仅有的少部分工作也仅是利用主动学习技术来缓解类别不平衡问题,却并未考虑样本不平衡分布会对主动学习的性能产生何种影响。因此,本项目主要针对上述问题展开深入研究,并取得了一系列的研究成果。具体研究成果如下:1) 探究了高维不平衡数据的结构特点,充分利用此类数据的特点,构造了一种高效的集成分类算法,其可在不损失单体分类器性能的前提下,大幅提升集成中个体分类器间的差异度,明显提高了此类数据的分类性能;2) 利用优化的思想,对类别不平衡学习中的决策输出补偿技术进行了改进,使其不再依赖于经验值,而是能自适应地对分类面位置进行调整,取得了很好的理论与实验效果;3) 为适应主动学习过程对速度与质量的双重要求,设计了一种基于极限学习机的主动学习算法,该算法充分利用了极限学习机的结构特点,通过非线性变换的方法将网络的实际输出转化为样本的近似后验概率形式,进而利用其作为“查询样本”选取的不确定性度量标准,大量实验结果表明:该算法具有与前人最好算法大致相当的分类性能,但运行时间却只有前人算法的几十分到几千分之一;4) 充分调查了样本不平衡分布对主动学习的影响机理,并以研究内容3为基础,借鉴代价敏感学习的思想,提出了一种高效的“平衡控制”策略,进而将其与在线学习相结合(已通过理论推导证明),开发了一种有效且高效的适用于样本分布不平衡场景的主动学习算法,取得了非常好的实验效果;5) 引入滑动时间窗,提出了一种适用于单样例标注场景的基于选择精度的主动学习停止准则,扩大了此类准则的适用范围。本项目的研究成果有助于为后续的实践研究提供理论基础。
项目成果
期刊论文数量(14)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(0)
Hierarchies on fuzzy information granulations: A knowledge distance based lattice approach
模糊信息粒度的层次结构:基于知识距离的格方法
- DOI:--
- 发表时间:2014
- 期刊:Journal of Intelligent & Fuzzy Systems
- 影响因子:2
- 作者:Xibei Yang;Xiaoning Song;Hualong Yu;Jingyu Yang
- 通讯作者:Jingyu Yang
类不平衡模糊加权极限学习机算法研究
- DOI:--
- 发表时间:2016
- 期刊:计算机科学与探索
- 影响因子:--
- 作者:于化龙;祁云嵩;杨习贝;左欣
- 通讯作者:左欣
A review of class imbalance learning methods in Bioinformatics
生物信息学中班级不平衡学习方法综述
- DOI:--
- 发表时间:2015
- 期刊:Current Bioinformatics
- 影响因子:4
- 作者:Changyin Sun;Wankou Yang;Sen Xu;Yuanyuan Dan
- 通讯作者:Yuanyuan Dan
ODOC-ELM: Optimal decision outputs compensation-based extreme learning machine for classifying imbalanced data
ODOC-ELM:基于最优决策输出补偿的极限学习机,用于对不平衡数据进行分类
- DOI:--
- 发表时间:2016
- 期刊:Knowledge-Based Systems
- 影响因子:8.8
- 作者:Yang; Xibei;Yang; Wankou;Shen; Jifeng;Qi; Yunsong
- 通讯作者:Yunsong
Cost-sensitive rough set approach
成本敏感的粗糙集方法
- DOI:--
- 发表时间:2016
- 期刊:Information Sciences
- 影响因子:8.1
- 作者:Yu; Hualong;Li; Tongjun;Yu; Dong-Jun;Yang; Jingyu
- 通讯作者:Jingyu
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
?-Cut Decision-Theoretic Rough Set Approach: Model and Attribute Reductions
��-Cut 决策理论粗糙集方法:模型和属性约简
- DOI:--
- 发表时间:2014
- 期刊:The Scientific World Journal
- 影响因子:--
- 作者:鞠恒荣;窦慧莉;戚湧;于化龙;於东军;杨静宇
- 通讯作者:杨静宇
基于DNA微阵列数据的癌症分类问题研究进展
- DOI:--
- 发表时间:--
- 期刊:计算机科学
- 影响因子:--
- 作者:赵靖;于化龙;刘海波;沈晶;顾国昌
- 通讯作者:顾国昌
应用离子电流信号计算发动机缸内压力
- DOI:--
- 发表时间:2013
- 期刊:内燃机工程
- 影响因子:--
- 作者:高忠权;孟祥文;向曦;于化龙
- 通讯作者:于化龙
非均匀电场对火焰传播速率的影响
- DOI:--
- 发表时间:2012
- 期刊:西安交通大学学报
- 影响因子:--
- 作者:于化龙;向曦;吴筱敏;TAND Andong;MENG Xiangwen;ZHOU Rongfang;ZHOU Zhujie; YU Hualo
- 通讯作者:YU Hualo
Learning discriminative shape statistics distribution features for pedestrian detection
学习用于行人检测的判别形状统计分布特征
- DOI:10.1111/nbu.12325
- 发表时间:2016
- 期刊:Neurocomputing
- 影响因子:6
- 作者:沈继锋;左欣;杨万扣;刘国海;于化龙
- 通讯作者:于化龙
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
于化龙的其他基金
融合样本先验分布信息的类别不平衡学习理论与算法研究
- 批准号:
- 批准年份:2021
- 资助金额:57 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}