喵ID:MGEFtM免责声明

噪声标签重标注方法

基本信息

DOI:
10.11896/jsjkx.190600041
发表时间:
2020
期刊:
计算机科学
影响因子:
--
通讯作者:
徐建
中科院分区:
其他
文献类型:
--
作者: 余孟池;牟甲鹏;蔡剑;徐建研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

The integrity of sample labels has a significant impact on the classification accuracy of supervised learning problems. However, in real data, due to factors such as the randomness of the labeling process and the non-professionalism of labelers, data labels will inevitably be polluted by noise, that is, the observed labels of samples are different from the true labels. To reduce the negative impact of noisy labels on the classification accuracy of classifiers, a noisy label correction method is proposed in this paper. This method uses a base classifier to classify observed samples and estimate the noise rate to identify noisy label data, and then uses the classification results of the base classifier to relabel the noisy label samples to obtain a sample data set with corrected noisy label samples. The experimental results on synthetic data sets and real data sets show that this relabeling algorithm has a certain improvement effect on the classification results under the interference of different base classifiers and different noise rates. Compared with the algorithm without noise reduction on the synthetic data set, its accuracy rate is increased by about 5%. In the high noise rate environment on the CIFAR and MNIST data sets, the F1 value of this relabeling algorithm is on average more than 7% higher than that of Elk08 and Nat13, and 53% higher than that of the noise-free algorithm.
样本标签的完整性对于有监督学习问题的分类精度有着显著影响,然而在现实数据中,由于标注过程的随机性和标注人员的不专业性等因素,数据标签不可避免地会受到噪声污染,即样本的观测标签不同于真实标签。为降低噪声标签对分类器分类精度的负面影响,文中提出一种噪声标签纠正方法,该方法利用基分类器对观测样本进行分类并估计噪声率,以识别噪声标签数据,再利用基分类器的分类结果对噪声标签样本进行重新标注,得到噪声标签样本被修正后的样本数据集。在合成数据集与真实数据集上的实验结果表明,该重标注算法在不同基分类器和不同噪声率干扰下对分类结果都有一定的提升作用,在合成数据集上对比无降噪声算法,其正确率提升5%左右,而在CIFAR和MNIST数据集上的高噪声率环境下,该重标注算法的F1值比Elk08和Nat13平均高7%以上,比无噪声算法高53%。
参考文献(0)
被引文献(0)

数据更新时间:{{ references.updateTime }}

关联基金

面向智能化运维的工作票挖掘方法研究
批准号:
61872186
批准年份:
2018
资助金额:
63.0
项目类别:
面上项目
徐建
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓