Development of a Support System for the Reprinting of Oieryu Kuzushiji (Edo Period Official Handwriting) Documents by Integrating Visual and Linguistic Information

通过整合视觉和语言信息开发重印江户时代官方手写文献的支持系统

基本信息

  • 批准号:
    22K18149
  • 负责人:
  • 金额:
    $ 2.91万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

この研究では、御家流と呼ばれる江戸期の公的な文書などに使用する書体で書かれた日記(業務文書)の翻刻を支援するシステムを開発する。最近は、IIIFという標準規格に基づいた歴史文化系画像が公開されており、これらの画像を使った人文学研究のためのAI-OCR(光学文字認識)技術で自動翻刻が試みられている。例えば、現行のAI-OCRアプリ「miwo」は、AI-OCR技術によりくずし字で書かれた文書などの画像を読み取り、楷書体の文字に翻刻するアプリの中でも実用的なものだが、漢字が95%以上を占める江戸期の日記に対しては、文字位置の判定は高精度に行う一方で、文字の判定は10%~50%程度に留まる。これは、AI-OCRに用いる学習データの量と種類が不足しているためである。現在利用可能なくずし字データは、人文学オープンデータ共同利用センター(CODH)から配布されているものがあるが、これらのデータは主に文学作品で変体仮名の多用される古典籍画像から、専門家によって手作業でアノテーションされたものである。他方、くずし字の解読がある程度の訓練を要するものである以上、不特定多数によるクラウドソーシングのような方法は品質保証が難しく非現実的である。しかし、最終的には専門家によるデータの確認も必要である。このような状況下でくずし字用のAI-OCRの質を高めるには、人と技術をうまく活用する手法を確立することで、多様な文書に用いられていた御家流くずし字字形の学習データを増やす仕組みを確立することが重要となる。今年度は、くずし字の読み解きに興味のある市民と希少な専門家の技術を効率的に生かす翻刻支援システムにより正解データを増やせる環境を構築した。専用作業サイトを実装して2名に実際にサイトを利用して御家流くずし字のアノテーションデータを修正し、正解データに仕上げることが可能になった。
在这项研究中,我们将开发一个系统,支持以江户时代官方文件使用的字体(称为 Goke 风格)书写的日记(商业文件)的转录。最近,基于IIIF标准的历史文化图像已经发布,并正在尝试利用AI-OCR(光学字符识别)技术自动转录它们,用于人文研究。例如,当前的AI-OCR应用程序“miwo”是一款实用的应用程序,它使用AI-OCR技术读取用Kuzushiji书写的文档图像并将其转录为楷书,但它有95个江户时代的日记。占10%以上,虽然字符位置可以高精度确定,但字符识别率仍停留在10%至50%左右。这是因为AI-OCR使用的训练数据量和类型不足。目前可用的 kuzushiji 数据由人文学科开放数据中心 (CODH) 分发,但这些数据主要由文学作品中经常使用变假名的经典书籍中的图像组成,并由该公司手动注释。另一方面,由于破译葛字迹需要一定的训练,不限人数的众包等方法难以保证质量,不切实际。不过,数据最终还需要专家的确认。在这种情况下,为了提高 Kuzushiji 的 AI-OCR 质量,我们需要建立一种善用人力和技术的方法,并利用在各种文档中使用的 Goke 风格 Kuzushiji 的学习数据建立一个系统来增加这个数额很重要。今年,我们创建了一个环境,可以通过转录支持系统来增加正确答案数据的数量,该系统有效地利用了对破译葛紫记感兴趣的公民和稀有专家的技能。通过设置专用的工作站点,两个人就可以实际使用该站点来修正Oke-ryu Kuzushiji的注释数据并将其完成为正确的数据。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
[A4] Construction of a Database Aimed at Complementing Information by Presenting Time Series of Scattered Regional Business Records in the Edo period
[A4]通过呈现江户时代分散的地区商业记录的时间序列来构建旨在补充信息的数据库
  • DOI:
    10.24506/jsda.6.s3_s131
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    吉賀 夏子;伊藤 昭弘
  • 通讯作者:
    伊藤 昭弘
多様なくずし字画像に対応するアノテーションデータセット収集システムの試作
支持多种葛藤图像的注释数据集收集系统的原型制作
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    吉賀 夏子;橋本 雄太
  • 通讯作者:
    橋本 雄太
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

吉賀 夏子其他文献

GlyphWikiによる観智院本『類聚名義抄』字形の再現とその改善
GlyphWiki 再现并改进了 Kanchiin 书籍“Ruiju Meigisho”的字符形状
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    吉賀 夏子;堀 良彰;只木 進一;永崎 研宣;伊藤 昭弘;池田証壽・李媛・劉冠偉・鄭門鎬
  • 通讯作者:
    池田証壽・李媛・劉冠偉・鄭門鎬
南宋・陸四郎筆 羅漢図(藤田美術館蔵)
南宋 陆四郎罗汉图(藤田美术馆藏)
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    吉賀 夏子;堀 良彰;只木 進一;永崎 研宣;伊藤 昭弘;稲場圭信;村上祐子;北澤菜月
  • 通讯作者:
    北澤菜月
ja The Japan Architect 危機がデザイン する都市
zh 日本建筑师 一座由危机设计的城市
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    王庭輝;岸田拓也;中鹿亘;Ichiro Inoue;水沼友宏;吉賀 夏子;福岡孝則
  • 通讯作者:
    福岡孝則
五代・北宋期における熾盛光道場本尊図像の形成と伝播―温州白象塔星宿神塑像をめぐって―
五朝北宋青神岗道场主要形象的形成与传播——以温州白象塔、星神塑像为例
寺院の災害避難所をめぐる問題提起
提出有关寺庙灾难疏散避难所的问题
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    吉賀 夏子;堀 良彰;只木 進一;永崎 研宣;伊藤 昭弘;稲場圭信
  • 通讯作者:
    稲場圭信

吉賀 夏子的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

統合的に説明可能なマーケティング向けマルチモーダル深層学習モデルの開発
开发可以综合解释的多模态深度学习营销模型
  • 批准号:
    24K16472
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
形状理解のためのマルチモーダル学習による、敵対的摂動に頑健な画像認識モデル開発
使用多模态学习进行形状理解,开发对对抗性扰动具有鲁棒性的图像识别模型
  • 批准号:
    24KJ0716
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
マルチモーダル刺激の統合処理と外国語学習への効果 -眼球運動とMRI実験に基づく考察-
多模态刺激的综合处理及其对外语学习的影响——基于眼动和MRI实验的思考——
  • 批准号:
    24K00088
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
数学eラーニングのためのマルチモーダルな数式入力UIの研究と学習支援環境の構築
数学电子学习多模态公式输入UI研究及学习支持环境构建
  • 批准号:
    23K25724
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
多次元データ・マルチモーダル機械学習による入院患者転倒転落リスク予測モデルの開発
使用多维数据和多模态机器学习开发住院患者跌倒风险预测模型
  • 批准号:
    23K27820
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了