喵ID:HneNXA免责声明

高度不平衡数据的代价敏感随机森林分类算法

基本信息

DOI:
10.16451/j.cnki.issn1003-6059.202003006
发表时间:
2020
期刊:
模式识别与人工智能
影响因子:
--
通讯作者:
李冬
中科院分区:
其他
文献类型:
--
作者: 平瑞;周水生;李冬研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

When dealing with highly imbalanced data, the cost-sensitive random forest algorithm has problems such as insufficient learning of small-class samples caused by bootstrap sampling, a relatively large proportion of large-class samples, and the cost-sensitive mechanism being easily weakened. In this paper, after clustering the large-class samples, the weak balance criterion is used multiple times to down-sample each cluster, so that the selected large-class samples are fused with the small-class samples of the original training set to generate multiple new imbalanced data sets for the training of cost-sensitive decision trees. Thus, a weakly balanced cost-sensitive random forest algorithm based on clustering is proposed, which not only enables sufficient learning of small-class samples but also ensures that the cost-sensitive mechanism is less affected by reducing the number of large-class samples. Experiments show that the algorithm in this paper has better performance when dealing with highly imbalanced data sets.
在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练.由此提出基于聚类的弱平衡代价敏感随机森林算法,不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小.实验表明,文中算法在处理高度不平衡数据集时性能较优.
参考文献(0)
被引文献(0)

数据更新时间:{{ references.updateTime }}

关联基金

基于特征/样本稀疏性的大规模核学习算法研究
批准号:
61772020
批准年份:
2017
资助金额:
52.0
项目类别:
面上项目
李冬
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓