喵ID:BrhVkl免责声明

Learning Word Embeddings for Low-Resource Languages by PU Learning

基本信息

DOI:
10.18653/v1/n18-1093
发表时间:
2018-05
期刊:
影响因子:
--
通讯作者:
Chao Jiang;Hsiang-Fu Yu;Cho-Jui Hsieh;Kai-Wei Chang
中科院分区:
其他
文献类型:
--
作者: Chao Jiang;Hsiang-Fu Yu;Cho-Jui Hsieh;Kai-Wei Chang研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Word embedding is a key component in many downstream applications in processing natural languages. Existing approaches often assume the existence of a large collection of text for learning effective word embedding. However, such a corpus may not be available for some low-resource languages. In this paper, we study how to effectively learn a word embedding model on a corpus with only a few million tokens. In such a situation, the co-occurrence matrix is sparse as the co-occurrences of many word pairs are unobserved. In contrast to existing approaches often only sample a few unobserved word pairs as negative samples, we argue that the zero entries in the co-occurrence matrix also provide valuable information. We then design a Positive-Unlabeled Learning (PU-Learning) approach to factorize the co-occurrence matrix and validate the proposed approaches in four different languages.
在处理自然语言中,单词嵌入是许多下游应用程序中的关键组成部分。现有方法通常假设存在大量文本,以学习有效的单词嵌入。但是,这种语料库可能无法用于某些低资源语言。在本文中,我们研究了如何有效地学习只有几百万个令牌的语料库上的单词嵌入模型。在这种情况下,由于许多单词对的共发生,因此共发生矩阵稀疏。与现有方法相反,通常只采样了几个未观察到的单词对作为负样本,我们认为同时矩阵中的零条目也提供了有价值的信息。然后,我们设计了一种积极的未标记学习方法(PU-学习)方法,以分解同时出现矩阵并以四种不同语言验证所提出的方法。
参考文献(35)
被引文献(20)

数据更新时间:{{ references.updateTime }}

关联基金

CRII: RI: Learning Structured Prediction Models with Auxiliary Supervision
批准号:
1760523
批准年份:
2017
资助金额:
17.09
项目类别:
Standard Grant
Chao Jiang;Hsiang-Fu Yu;Cho-Jui Hsieh;Kai-Wei Chang
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓