喵ID:3aw2kK免责声明

BERT-Flow-VAE: A Weakly-supervised Model for Multi-Label Text Classification

BERT-Flow-VAE:多标签文本分类的弱监督模型

基本信息

DOI:
10.48550/arxiv.2210.15225
发表时间:
2022
期刊:
ArXiv
影响因子:
--
通讯作者:
Scott Orr
中科院分区:
文献类型:
--
作者: Ziwen Liu;J. Grau;Scott Orr研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Multi-label Text Classification (MLTC) is the task of categorizing documents into one or more topics. Considering the large volumes of data and varying domains of such tasks, fully supervised learning requires manually fully annotated datasets which is costly and time-consuming. In this paper, we propose BERT-Flow-VAE (BFV), a Weakly-Supervised Multi-Label Text Classification (WSMLTC) model that reduces the need for full supervision. This new model (1) produces BERT sentence embeddings and calibrates them using a flow model, (2) generates an initial topic-document matrix by averaging results of a seeded sparse topic model and a textual entailment model which only require surface name of topics and 4-6 seed words per topic, and (3) adopts a VAE framework to reconstruct the embeddings under the guidance of the topic-document matrix. Finally, (4) it uses the means produced by the encoder model in the VAE architecture as predictions for MLTC. Experimental results on 6 multi-label datasets show that BFV can substantially outperform other baseline WSMLTC models in key metrics and achieve approximately 84% performance of a fully-supervised model.
多标签文本分类(MLTC)是将文档分类到一个或多个主题的任务。考虑到此类任务的数据量巨大且领域多样,完全监督学习需要人工对数据集进行完全标注,这既昂贵又耗时。在本文中,我们提出了BERT - Flow - VAE(BFV),一种弱监督多标签文本分类(WSMLTC)模型,它减少了对完全监督的需求。这个新模型(1)生成BERT句子嵌入,并使用流模型对其进行校准;(2)通过对一个有种子的稀疏主题模型和一个文本蕴含模型的结果求平均来生成一个初始的主题 - 文档矩阵,这两个模型仅需要主题的表面名称以及每个主题4 - 6个种子词;(3)采用变分自编码器(VAE)框架在主题 - 文档矩阵的指导下重构嵌入。最后,(4)它使用VAE架构中编码器模型产生的均值作为多标签文本分类的预测结果。在6个多标签数据集上的实验结果表明,BFV在关键指标上能够显著优于其他弱监督多标签文本分类的基线模型,并能达到完全监督模型约84%的性能。
参考文献(4)
被引文献(1)
X-Class: Text Classification with Extremely Weak Supervision
DOI:
10.18653/v1/2021.naacl-main.242
发表时间:
2020-10
期刊:
ArXiv
影响因子:
0
作者:
Zihan Wang;Dheeraj Mekala;Jingbo Shang
通讯作者:
Zihan Wang;Dheeraj Mekala;Jingbo Shang
Discriminative Topic Mining via Category-Name Guided Text Embedding
DOI:
10.1145/3366423.3380278
发表时间:
2019-08
期刊:
Proceedings of The Web Conference 2020
影响因子:
0
作者:
Yu Meng;Jiaxin Huang;Guangyuan Wang;Zihan Wang;Chao Zhang;Yu Zhang;Jiawei Han
通讯作者:
Yu Meng;Jiaxin Huang;Guangyuan Wang;Zihan Wang;Chao Zhang;Yu Zhang;Jiawei Han

数据更新时间:{{ references.updateTime }}

Scott Orr
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓