計量的分析のための15世紀朝鮮語形態素解析済みコーパス構築:仏教諺解を対象に
构建 15 世纪韩语词法语料库以进行定量分析:以佛教谚语为目标
基本信息
- 批准号:20K00558
- 负责人:
- 金额:$ 1.75万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2020
- 资助国家:日本
- 起止时间:2020-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
計画の3年目である令和4年度にも,引き続きMeCab(めかぶ)向けの15世紀朝鮮語形態素解析用辞書である「MkHanDic」に,辞書項目の追加を行った.現在の辞書項目数は9730項目で,学習用データは3070文である.解析の精度について,やはり同音異義語の判定に問題があり,解決方法について検討を行っている.ただし,これまでの作業を通じて,辞書の項目数を着実に増やしており,さらに登録項目を増やしていくことで,全体的な精度を向上させることが可能である.引き続き,辞書項目と学習用データを増やしていく.また,形態素解析を行う前段階の作業として,TEI(Text Encoding Initiative)ガイドラインを用いた電子データの整備を並行して行っているが,今年度は『般若心経諺解』『救急簡易方諺解』の電子データ構築に着手した.これらの文献も15世紀に刊行されたものであるが,本研究で対象とする『月印釈譜』とはテキストの構造,構成がやや異なる.様々なタイプの文献について,TEIガイドラインによる電子データ化を行うことで,知見がより深まり,『月印釈譜』に対する電子データ化もさらに精緻さを加えることが可能になると考える.また,形態素解析の結果も盛り込んだ電子データ化の方法についても,今後検討する予定である.今後はこれらのデータを元に,本研究の研究対象である『月印釈譜』の他の巻についても電子データ化を行い,作業が終了したデータから形態素解析を行って,未登録の項目を辞書項目として追加する作業を行う.
在计划的第三年,即2020财年,我们继续向MeCab的15世纪韩语形态分析词典“MkHanDic”添加词典项目。当前词典条目数为9730条,训练数据为3070个句子。关于分析的准确性,同音词的判定还存在问题,目前我们正在研究解决这个问题的方法。然而,通过迄今为止的工作,我们已经稳步增加了词典中的条目数量,并且通过进一步增加注册条目的数量,可以提高整体准确性。我们将继续增加词典条目和学习数据。此外,作为形态分析的初步步骤,我们还正在使用 TEI(文本编码倡议)指南准备电子数据,我们已经开始为解决方案构建电子数据。虽然这些文献也是在 15 世纪出版的,但它们的文本结构和构成与本研究的主题“Gsukiinshafu”略有不同。我们相信,通过根据TEI指南将各种类型的文献转换为电子数据,我们将能够加深我们的知识,并且可以使月印社的电子数据转换更加复杂。我们还计划考虑将结果转换为包含形态分析结果的电子数据的方法。今后,我们将根据这些数据,对本次研究的《月印社赋》的其他卷进行数字化,并对完成的数据进行形态分析,以识别未登记的项目,并执行作为词典项目添加的任务。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
中期朝鮮語の計量的分析の試み―クラスター分析による『釈譜詳節』各巻の分類―
尝试对中古朝鲜语进行定量分析:使用聚类分析对《Shafu Shosettsu》各卷进行分类。
- DOI:
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:須賀井義教
- 通讯作者:須賀井義教
中期朝鮮語の計量的分析の試み
中朝鲜语定量分析的尝试
- DOI:10.50986/koreanlinguistics.9.0_175
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:須賀井 義教
- 通讯作者:須賀井 義教
中期朝鮮語の計量的分析の試み
中朝鲜语定量分析的尝试
- DOI:10.50986/koreanlinguistics.9.0_175
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:須賀井 義教
- 通讯作者:須賀井 義教
中期朝鮮語の計量的分析の試み―クラスター分析による『釈譜詳節』各巻の分類―
尝试对中古朝鲜语进行定量分析:使用聚类分析对《Shafu Shosettsu》各卷进行分类。
- DOI:
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:須賀井義教
- 通讯作者:須賀井義教
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
須賀井 義教其他文献
中期朝鮮語の計量的分析の試み―クラスター分析による『釈譜詳節』各巻の分類―
尝试对中古朝鲜语进行定量分析:使用聚类分析对《Shafu Shosettsu》各卷进行分类。
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
須賀井 義教 - 通讯作者:
須賀井 義教
中期朝鮮語の計量的分析の試み―クラスター分析による『釈譜詳節』各巻の分類―
尝试对中古朝鲜语进行定量分析:使用聚类分析对《Shafu Shosettsu》各卷进行分类。
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
須賀井 義教 - 通讯作者:
須賀井 義教
須賀井 義教的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
日本語諸方言コーパスによる方言音調の比較類型論的研究
使用各种日语方言语料库进行方言声调的比较类型学研究
- 批准号:
21H04351 - 财政年份:2021
- 资助金额:
$ 1.75万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
「ダメな科学ライティング」をさせないための高大接続による探究学習教育法の研究
连接高中和大学的探究学习教学法研究防止“糟糕的科学写作”
- 批准号:
20K03251 - 财政年份:2020
- 资助金额:
$ 1.75万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Construction of a large word database with accent information
构建带有口音信息的大型单词数据库
- 批准号:
19K13173 - 财政年份:2019
- 资助金额:
$ 1.75万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
A Cross-sectional Study of the Texts of the Various Texts of "The Tale of Saigyo
《西行物语》各文本的横断面研究
- 批准号:
19K00337 - 财政年份:2019
- 资助金额:
$ 1.75万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Annotation of syntactic and semantic information for a corpus of Old Japanese
古日语语料库的句法和语义信息注释
- 批准号:
18K00560 - 财政年份:2018
- 资助金额:
$ 1.75万 - 项目类别:
Grant-in-Aid for Scientific Research (C)