数据不平衡的视角化理论及其方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61672227
- 项目类别:面上项目
- 资助金额:60.0万
- 负责人:
- 依托单位:
- 学科分类:F0605.模式识别与数据挖掘
- 结题年份:2020
- 批准年份:2016
- 项目状态:已结题
- 起止时间:2017-01-01 至2020-12-31
- 项目参与者:郭卫斌; 李冬冬; 张海腾; 朱昱锦; 范奇; 朱宗海; 姚丽娟; 程阳; 陈钊志;
- 关键词:
项目摘要
The proposal develops some creative theories and algorithms for imbalanced data under the multi-view learning framework. The characteristic of imbalanced data mainly reflects the data distribution imbalance between classes, which would cause an offset of the decision boundary and a classification loss. Differently from the existing methods for imbalanced data, this proposal constructs the multiviewization theory for imbalanced data so as to make up the classification loss. Based on the constructed multiviewization theory, this proposal designs some novel methods from three aspects including the samples, the algorithm architecture, and the classification strategy. Firstly, this proposal designs different multi-view classification models for imbalanced samples in terms of the entropy information, one-sided dynamic under-sampling, Universum over-sampling, and feature-clustering interpolation, respectively. Secondly, this proposal respectively adopts the gravitational fixed radius nearest neighbor strategy and the boundary-eliminated pseudo-inverse linear discriminant idea into the algorithm architectures, and thus develops new multi-view classification models for imbalanced data. Finally, independently of special algorithms, this proposal utilizes the Bagging technique for both the samples and features generated by the Fisher kernel. Doing so can give a new ensemble learning conception to improve both the effectiveness and efficiency for classifying imbalanced data in practice. This proposal aims to overcome the limitations of the existing learning mechanism for imbalanced data, providing a novel and effective design concept for learning theories and algorithms.
本项目是在对不平衡数据多视角化框架下展开的创新性理论构造与方法设计。不平衡数据体现在类间数据分布的不平衡,而这种不平衡性会导致判别边界偏移等问题。不同于现有相关方法,本项目构建针对数据不平衡的视角化理论,通过对其多视角化以弥补数据不平衡导致的分类缺憾。本项目基于所构建的视角化理论,从样本、算法构造与分类策略三个层面设计针对不平衡数据的新方法。首先,在不平衡数据样本层面上,设计基于熵、单边动态下采样、Universum上采样与数据特征插值的多视角分类模型。其次,在算法构造层面上,设计分别基于万有引力近邻策略与边界伪逆法下的针对不平衡数据的多视角分类模型。最后,在分类策略层面上,设计出独立于算法、基于Fisher核下的特征与样本双重Bagging的新集成学习方法,提升所设计的新算法在实践中对不平衡数据的学习效率。本项目力图突破现有不平衡数据处理机制的局限,为其学习理论与算法提供新的设计理念。
结项摘要
不平衡数据问题是当前机器学习的一个研究热点,其在实际生产生活中广泛存在。不平衡数据的特点是类间数据分布呈现不平衡性,而这种数据的不平衡性会导致判别边界的偏移问题。但常规机器学习方法在处理不平衡数据时未能有效地解决判别边界偏移问题。不同于现有学习方法,本项目开展了如下研究:分别从样本、算法构造与分类策略等方面进行的研究。内容涉及建模、算法设计和实现、相关的理论分析与实验对比等研究。并取得如下主要成果:.1.在不平衡数据样本层面,提出全局多平衡子集协作学习方法GMBSCL,提出基于几何结构集成的不平衡问题分类方法GSE;提出一种基于双子空间和置信扰动的级联插值学习集成框架CILDC;提出一种基于熵的轻量化支持向量描述算法IESRSVDD;提出基于Universum样本的矩阵型分类器算法UMatMHKS;提出基于熵的模糊支持向量机EFSVM。.2.在算法构造层面,提出基于边界消解的伪逆线性判别分析模型BEPILD;提出一种基于OR与动态平均半径DRM的心衰死亡率预测系统;提出一种基于熵和引力的动态半径最近邻算法EGDRNN;提出基于边界强化的多随机经验核学习MREKL-MR;提出一种针对语音情感不平衡数据的基于熵的边界消解伪逆线性判别分析方法EBEPILD;提出一种带有实例加权和边界拟合的多部分经验核学习的算法IBMPEK。.3.在分类策略层面,提出两种基于正则化Fisher线性判别(FLD)的新型分类模型RFLD-S1和RFLD-S2;提出两种基于近邻计数的算法来选择数据在不平衡或平衡情况下的关键实例;提出基于熵和置信度的欠采样增强框架ECUBoost;提出一种基于费舍尔核与双重采样的不平衡分类方法MLFKBB;提出一种基于树的空间划分与合并集成学习框架SPT。.4.最后,考虑到样本先验信息,该项目对原始内容进行拓展,设计了一系列融合样本先验信息的分类模型;如提出一种协同几何多核学习算法CGMKL;提出一种基于边界投影判别的矩阵型样本分类方法BPDMatMHKS;提出一种基于特征重排的深度学习系统用于心衰死亡率预测等。.上述成果主要以学术论文与发明专利形式呈现,基于此项目已录用发表SCI(E)期刊论文34篇,中文核心期刊论文5篇,EI会议论文1篇,上述成果被谷歌学术统计引用234次;授权国家发明专利2项,公开国家发明专利16项;培养毕业硕/博士生13人。
项目成果
期刊论文数量(32)
专著数量(0)
科研奖励数量(0)
会议论文数量(1)
专利数量(18)
Entropy and Confidence-Based Undersampling Boosting Random Forests for Imbalanced Problems
基于熵和置信度的欠采样增强随机森林解决不平衡问题
- DOI:10.1109/tnnls.2020.2964585
- 发表时间:2020-01
- 期刊:IEEE Transactions on Neural Networks and Learning Systems
- 影响因子:10.4
- 作者:Zhe Wang;Chenjie Cao;Yujin Zhu
- 通讯作者:Yujin Zhu
Entropy-based matrix learning machine for imbalanced data sets
针对不平衡数据集的基于熵的矩阵学习机
- DOI:10.1016/j.patrec.2017.01.014
- 发表时间:2017
- 期刊:Pattern Recognition Letters
- 影响因子:5.1
- 作者:Changming Zhu;Zhe Wang
- 通讯作者:Zhe Wang
Weight-based multiple empirical kernel learning with neighbor discriminant constraint for heart failure mortality prediction
基于权重的具有邻居判别约束的多重经验核学习用于心力衰竭死亡率预测
- DOI:10.1016/j.jbi.2019.103340
- 发表时间:2020-01-01
- 期刊:JOURNAL OF BIOMEDICAL INFORMATICS
- 影响因子:4.5
- 作者:Wang, Zhe;Wang, Bolu;Yin, Yichao
- 通讯作者:Yin, Yichao
Locality sensitive discriminant matrixized learning machine
局部敏感判别矩阵化学习机
- DOI:10.1016/j.knosys.2016.10.021
- 发表时间:2017-01
- 期刊:Knowledge-Based Systems
- 影响因子:8.8
- 作者:Zhe Wang;Guowei Zhang;Dongdong Li;Yujin Zhu;Chenjie Cao
- 通讯作者:Chenjie Cao
Globalized Multiple Balanced Subsets With Collaborative Learning for Imbalanced Data
全球化多个平衡子集与不平衡数据的协作学习
- DOI:10.1109/tcyb.2020.3001158
- 发表时间:2020-07
- 期刊:IEEE Transactions on Cybernetics
- 影响因子:11.8
- 作者:Zonghai Zhu;Zhe Wang;Dongdong Li;Wenli Du
- 通讯作者:Wenli Du
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
长程高脂饲料对雌雄大鼠胰岛功能损害差异的探讨
- DOI:--
- 发表时间:--
- 期刊:第三军医大学学报
- 影响因子:--
- 作者:甘立霞;卢忠燕;邹全明;王喆;何凤田
- 通讯作者:何凤田
重庆武隆天生三桥:鬼斧神工天生成
- DOI:--
- 发表时间:2020
- 期刊:中国矿业
- 影响因子:--
- 作者:王喆;卢丽;夏日元;曹建文;赵良杰;栾松
- 通讯作者:栾松
长江中上游银鮈线粒体DNA遗传多样性分析
- DOI:--
- 发表时间:2018
- 期刊:动物学杂志
- 影响因子:--
- 作者:王喆;汪登强;段辛斌;陈大庆;陈会娟;刘绍平
- 通讯作者:刘绍平
并行月面三维地形重建系统设计
- DOI:--
- 发表时间:2013
- 期刊:飞行器测控学报
- 影响因子:--
- 作者:王喆;高三红;郑慧英;李立春
- 通讯作者:李立春
制造无胶纤维板过程中木质素的变化规律以酸性蒸气蒸煮热磨制造方法为例
- DOI:--
- 发表时间:2014
- 期刊:东北林业大学学报
- 影响因子:--
- 作者:金春德;杨巍;韩申杰;王喆;李景鹏
- 通讯作者:李景鹏
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
王喆的其他基金
几何信息融合的分类学习研究
- 批准号:
- 批准年份:2020
- 资助金额:59 万元
- 项目类别:面上项目
多核学习若干关键问题研究
- 批准号:61272198
- 批准年份:2012
- 资助金额:80.0 万元
- 项目类别:面上项目
基于模式源的分类器设计方法与应用研究
- 批准号:60903091
- 批准年份:2009
- 资助金额:18.0 万元
- 项目类别:青年科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}