計量的分析のための15世紀朝鮮語形態素解析済みコーパス構築:仏教諺解を対象に

构建 15 世纪韩语词法语料库以进行定量分析:以佛教谚语为目标

基本信息

  • 批准号:
    20K00558
  • 负责人:
  • 金额:
    $ 1.75万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

計画の3年目である令和4年度にも,引き続きMeCab(めかぶ)向けの15世紀朝鮮語形態素解析用辞書である「MkHanDic」に,辞書項目の追加を行った.現在の辞書項目数は9730項目で,学習用データは3070文である.解析の精度について,やはり同音異義語の判定に問題があり,解決方法について検討を行っている.ただし,これまでの作業を通じて,辞書の項目数を着実に増やしており,さらに登録項目を増やしていくことで,全体的な精度を向上させることが可能である.引き続き,辞書項目と学習用データを増やしていく.また,形態素解析を行う前段階の作業として,TEI(Text Encoding Initiative)ガイドラインを用いた電子データの整備を並行して行っているが,今年度は『般若心経諺解』『救急簡易方諺解』の電子データ構築に着手した.これらの文献も15世紀に刊行されたものであるが,本研究で対象とする『月印釈譜』とはテキストの構造,構成がやや異なる.様々なタイプの文献について,TEIガイドラインによる電子データ化を行うことで,知見がより深まり,『月印釈譜』に対する電子データ化もさらに精緻さを加えることが可能になると考える.また,形態素解析の結果も盛り込んだ電子データ化の方法についても,今後検討する予定である.今後はこれらのデータを元に,本研究の研究対象である『月印釈譜』の他の巻についても電子データ化を行い,作業が終了したデータから形態素解析を行って,未登録の項目を辞書項目として追加する作業を行う.
在计划的第三年,即2020财年,我们继续向MeCab的15世纪韩语形态分析词典“MkHanDic”添加词典项目。当前词典条目数为9730条,训练数据为3070个句子。关于分析的准确性,同音词的判定还存在问题,目前我们正在研究解决这个问题的方法。然而,通过迄今为止的工作,我们已经稳步增加了词典中的条目数量,并且通过进一步增加注册条目的数量,可以提高整体准确性。我们将继续增加词典条目和学习数据。此外,作为形态分析的初步步骤,我们还正在使用 TEI(文本编码倡议)指南准备电子数据,我们已经开始为解决方案构建电子数据。虽然这些文献也是在 15 世纪出版的,但它们的文本结构和构成与本研究的主题“Gsukiinshafu”略有不同。我们相信,通过根据TEI指南将各种类型的文献转换为电子数据,我们将能够加深我们的知识,并且可以使月印社的电子数据转换更加复杂。我们还计划考虑将结果转换为包含形态分析结果的电子数据的方法。今后,我们将根据这些数据,对本次研究的《月印社赋》的其他卷进行数字化,并对完成的数据进行形态分析,以识别未登记的项目,并执行作为词典项目添加的任务。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
MeCab用形態素解析辞書MkHanDic
MeCab 的形态分析词典 MkHanDic
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
中期朝鮮語の計量的分析の試み―クラスター分析による『釈譜詳節』各巻の分類―
尝试对中古朝鲜语进行定量分析:使用聚类分析对《Shafu Shosettsu》各卷进行分类。
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    須賀井義教
  • 通讯作者:
    須賀井義教
中期朝鮮語の計量的分析の試み
中朝鲜语定量分析的尝试
  • DOI:
    10.50986/koreanlinguistics.9.0_175
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    須賀井 義教
  • 通讯作者:
    須賀井 義教
中期朝鮮語の計量的分析の試み
中朝鲜语定量分析的尝试
  • DOI:
    10.50986/koreanlinguistics.9.0_175
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    須賀井 義教
  • 通讯作者:
    須賀井 義教
中期朝鮮語の計量的分析の試み―クラスター分析による『釈譜詳節』各巻の分類―
尝试对中古朝鲜语进行定量分析:使用聚类分析对《Shafu Shosettsu》各卷进行分类。
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    須賀井義教
  • 通讯作者:
    須賀井義教
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

須賀井 義教其他文献

中期朝鮮語の計量的分析の試み―クラスター分析による『釈譜詳節』各巻の分類―
尝试对中古朝鲜语进行定量分析:使用聚类分析对《Shafu Shosettsu》各卷进行分类。
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    須賀井 義教
  • 通讯作者:
    須賀井 義教
中期朝鮮語の計量的分析の試み―クラスター分析による『釈譜詳節』各巻の分類―
尝试对中古朝鲜语进行定量分析:使用聚类分析对《Shafu Shosettsu》各卷进行分类。
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    須賀井 義教
  • 通讯作者:
    須賀井 義教

須賀井 義教的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

日本語諸方言コーパスによる方言音調の比較類型論的研究
使用各种日语方言语料库进行方言声调的比较类型学研究
  • 批准号:
    21H04351
  • 财政年份:
    2021
  • 资助金额:
    $ 1.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
「ダメな科学ライティング」をさせないための高大接続による探究学習教育法の研究
连接高中和大学的探究学习教学法研究防止“糟糕的科学写作”
  • 批准号:
    20K03251
  • 财政年份:
    2020
  • 资助金额:
    $ 1.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Construction of a large word database with accent information
构建带有口音信息的大型单词数据库
  • 批准号:
    19K13173
  • 财政年份:
    2019
  • 资助金额:
    $ 1.75万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
A Cross-sectional Study of the Texts of the Various Texts of "The Tale of Saigyo
《西行物语》各文本的横断面研究
  • 批准号:
    19K00337
  • 财政年份:
    2019
  • 资助金额:
    $ 1.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Annotation of syntactic and semantic information for a corpus of Old Japanese
古日语语料库的句法和语义信息注释
  • 批准号:
    18K00560
  • 财政年份:
    2018
  • 资助金额:
    $ 1.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了