喵ID:M2eCjW免责声明

Identifying Semantically Difficult Samples to Improve Text Classification

识别语义困难的样本以改进文本分类

基本信息

DOI:
10.48550/arxiv.2302.06155
发表时间:
2023
期刊:
arXiv.org
影响因子:
--
通讯作者:
Suman Mitra
中科院分区:
文献类型:
--
作者: Shashank Mujumdar;S. Mehta;Hima Patel;Suman Mitra研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

In this paper, we investigate the effect of addressing difficult samples from a given text dataset on the downstream text classification task. We define difficult samples as being non-obvious cases for text classification by analysing them in the semantic embedding space; specifically - (i) semantically similar samples that belong to different classes and (ii) semantically dissimilar samples that belong to the same class. We propose a penalty function to measure the overall difficulty score of every sample in the dataset. We conduct exhaustive experiments on 13 standard datasets to show a consistent improvement of up to 9% and discuss qualitative results to show effectiveness of our approach in identifying difficult samples for a text classification model.
在本文中,我们研究了处理给定文本数据集中困难样本对下游文本分类任务的影响。我们通过在语义嵌入空间中对样本进行分析,将困难样本定义为文本分类中不明显的情况;具体来说——(i)属于不同类别的语义相似样本以及(ii)属于同一类别的语义不相似样本。我们提出了一个惩罚函数来衡量数据集中每个样本的总体难度得分。我们在13个标准数据集上进行了详尽的实验,结果显示性能持续提高了高达9%,并且讨论了定性结果,以证明我们的方法在为文本分类模型识别困难样本方面的有效性。
参考文献(1)
被引文献(0)

数据更新时间:{{ references.updateTime }}

Suman Mitra
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓