単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
基本信息
- 批准号:22K12162
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2026-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
ダブル配列言語モデルはダブル配列を用いたコンパクトなngram言語モデルの実装であり、高速な検索を実現できる点を特徴としている。しかし、非常に大きなテキストデータから学習する場合、モデルサイズ・構築速度が悪化する。本研究では、ダブル配列のモデルサイズ縮小の問題が単語ID付与(トライ遷移行列での列並び)に大きく依存している事実に基づき、ngram言語モデルのサイズ・構築時間を縮小させる単語ID付与手法を開発することを大きな目的としている。初年度はいくつかの提案予定の手法のうち、単語IDをngramのレベルによって変化させるRemappingと呼ばれる手法をダブル配列に適用することを提案し、サイズ・構築速度の効率を改善できることを示した。Remappingはngram単語列をトライ木で表現した場合の各ノードから子ノードへ分岐する単語ID番号を付け替えて、子ノード集合への分岐のIDの幅(分岐する可能性のある単語ID番号の範囲)を小さくする手法である。トライ木中の単語IDを直前の単語(トライ木の1つ上のノード)に依存したIDに付け替える。直前の単語により単語の種類が限定されるため、単語ID番号を小さな範囲に限定できる。このRemappingの手法はこれまで文字列圧縮の効率化に使われてきた手法であるが、我々はこの手法をダブル配列の効率化に利用することを提案した。ngramの種類数が数億から10億程度のある程度の規模のデータを用いて、Remappingの効果を評価した。その結果、Remappingしない場合に比べて確実にサイズが縮小しており、最大で30%程度のサイズ削減効果を確認できた。また、ngramの種類数が多くなるほどサイズ削減効果が高まっており、スケール効果が期待できる。加えて、構築速度もわずかであるが早くなっていることが確認できた。
双数组语言模型是使用双数组的ngram语言模型的紧凑实现,其特点是能够执行高速搜索。然而,当从非常大的文本数据中学习时,模型大小和构建速度会恶化。在本研究中,基于减少双精度数组模型大小的问题在很大程度上依赖于单词ID分配(trie转换矩阵中的列排列)这一事实,我们开发了一种减少大小和构建时间的单词ID分配方法主要目标是开发 ngram 语言模型。第一年,在提出的几种方法中,我们提出了一种称为重新映射的方法,该方法根据 ngram 级别更改单词 ID,将其转换为双数组,并表明可以提高大小效率和构建速度。重映射是将ngram单词串表示为trie树时,将从各节点分支的单词ID号重新映射到子节点,并改变分支到子节点集的ID宽度(可能分支的单词ID号的范围)。 )。将 trie 树中的单词 ID 替换为依赖于前一个单词(trie 树上方的一个节点)的 ID。由于单词的类型受到前一个单词的限制,因此可以将单词ID号限制在较小的范围内。这种重新映射方法已被用来提高字符串压缩的效率,但我们建议使用这种方法来提高双精度数组的效率。我们使用一定规模的数据评估了重新映射的有效性,ngram 类型的数量从数亿到十亿不等。结果,与没有重新映射的情况相比,尺寸明显减小,并且确认了约30%的最大尺寸减小效果。此外,随着 ngram 类型数量的增加,尺寸减小效果也会增加,并且可以预期规模效应。另外,确认建造速度也稍快一些。
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 幹雄其他文献
高等教育におけるアクセシビリティ支援アクターに関する一考察:人的支援を中心に
高等教育中无障碍支持参与者的研究:关注人力支持
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
岡田 菜穂子;山本 幹雄;山崎 恵里;糸井 真帆;佐野(藤田) 眞理子;吉原 正治 - 通讯作者:
吉原 正治
高等教育における合理的配慮のためのリソース・シェアリングに関する考察
高等教育合理便利资源共享的思考
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
山本 幹雄;岡田 菜穂子;坂本 晶子;山崎 恵理;佐野(藤田) 眞理子;吉原 正治 - 通讯作者:
吉原 正治
Identifying Bilingual Synonymous Technical Terms from Japanese-Chinese Parallel Sentences
从日汉并列句中识别双语同义技术术语
- DOI:
- 发表时间:
2015-03-15 - 期刊:
- 影响因子:0
- 作者:
董 麗娟;武仁 宇津呂;三橋 朋晴;山本 幹雄 - 通讯作者:
山本 幹雄
高等教育におけるアクセシビリティ支援アクターに関する一考察:人的支援を中心に
高等教育中无障碍支持参与者的研究:关注人力支持
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
岡田 菜穂子;山本 幹雄;山崎 恵里;糸井 真帆;佐野(藤田) 眞理子;吉原 正治 - 通讯作者:
吉原 正治
山本 幹雄的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 幹雄', 18)}}的其他基金
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
- 批准号:
20K03094 - 财政年份:2020
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
- 批准号:
18700648 - 财政年份:2006
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
A packet filtering method whose latency does not depends on the number of rules
一种延迟不依赖于规则数量的包过滤方法
- 批准号:
26330163 - 财政年份:2014
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)