日本近代公文書自動解読システムの構築

现代日本公文自动译码系统的构建

基本信息

  • 批准号:
    20H01304
  • 负责人:
  • 金额:
    $ 10.98万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

自動解読システムの核となるものは手書き文書認識技術である。これは字形情報と文脈情報を使って、注目している手書き文字の字種を推定する技術である。手書き文書認識技術の進歩は近年めざましいが、近代公文書は旧字体、略字、崩し字など様々な字体で書かれているため、自動解読は容易でない。本研究では深層学習を用いた文書認識技術を用いるが、これには近代公文書の文字特徴を網羅するデータセットを用意する必要がある。また、目標とする自動解読精度95%を達成するためには文書認識の新規技術の開発が必要である。本研究では、2021年度末までに、台湾総督府文書を題材として、約81万文字分の手書き文字の基礎データを含むデータセットを開発した。2022年度はさらに、約33万文字分のデータを追加し、4,548画像、約114万文字分のデータセットを開発した。また、自動解読システム開発のための要素技術として、2020年度までに精度95%の文字切り出し技術と精度89%の個別文字認識技術の開発を行ったが、2021~2022年度はこれらの精度改善手法を検討し、個別文字認識は93%の認識精度を達成するとともに、サンプル数の少ない字種の認識精度改善手法を検討。また、文脈情報を利用する行画像認識技術の開発を進め、92%の認識精度を達成した。これら要素技術により対話型解読支援システムを試作し、台湾研究機関の史学研究者らの協力のもと支援機能の評価実験を行った。また、台湾総督府文書を題材にして計量文献学的手法による時間・空間特徴の分析も行った。これらの成果については学術論文1編、国内学会発表2件により公表・報告を行った。本研究課題では、今後、125万文字分までデータセットを拡充するとともに、これまで開発した技術を基盤として、実利用可能な近代公文書自動解読システムを構築する。
自动解码系统的核心是手写文档识别技术。这是一种使用字形信息和上下文信息来估计感兴趣的手写字符类型的技术。手写文档识别技术近年来取得了显着的进步,但现代官方文档采用多种字体书写,包括旧字体、缩写和破损字体,因此很难自动破译。这项研究使用了深度学习的文档识别技术,但这需要准备一个涵盖现代官方文档字符特征的数据集。此外,为了实现95%自动解码准确率的目标,需要开发新的文档识别技术。在这项研究中,截至2021年底,我们以台湾总督府文件为主题,开发了包含约81万字符手写字符基础数据的数据集。在 2022 财年,我们添加了约 330,000 个字符的数据,开发了包含 4,548 张图像和约 114 万个字符的数据集。此外,作为开发自动解码系统的基本技术,到2020财年,我们已开发出准确度为95%的字符提取技术和准确度为89%的单个字符识别技术,但从2021财年到2022财年,我们将开发以下方法:提高这些技术的准确率除了单个字符识别达到93%的识别准确率外,我们还考虑了提高小样本字符类型识别准确率的方法。我们还开发了利用上下文信息的线条图像识别技术,识别准确率达到92%。利用这些基础技术,我们创建了一个原型交互式解码支持系统,并与台湾一家研究机构的历史研究人员合作对其支持功能进行了评估实验。我们还利用台湾总督府的文件,利用文献计量方法分析了时间和空间特征。这些成果以一篇学术论文和两次国内会议报告的形式发表和报道。在这个研究项目中,我们将把数据集扩展到125万个字符,并基于目前开发的技术构建一个实用的现代官方文档自动解码系统。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
深層学習を用いた石碑文字のセグメンテーション
使用深度学习分割石刻
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    守田直人;井上隆之介;山田雅之;中貴俊;兼松篤子;宮崎慎也;長谷川純一
  • 通讯作者:
    長谷川純一
疑似石碑画像を用いた深層学習による石碑文字セグメンテーション
使用伪石碑图像进行深度学习的石碑字符分割
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    松原悠人;山田雅之;中貴俊;兼松篤子;宮崎慎也;長谷川純一
  • 通讯作者:
    長谷川純一
日本近代公文書自動解読のためのデータセットと文字列認識手法の開発
现代日本官方文件自动解码数据集及字符串识别方法开发
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田中隆;山田雅之;中貴俊;兼松篤子;宮崎慎也;長谷川純一
  • 通讯作者:
    長谷川純一
Inscription Segmentation Using Synthetic Inscription Images for Text Detection at Stone Monuments
使用合成铭文图像进行铭文分割,用于石碑文本检测
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Naoto Morita;Ryunosuke Inoue;Masashi Yamada;Takatoshi Naka;Atsuko Kanematsu;Shinya Miyazaki;Junichi Hasegawa
  • 通讯作者:
    Junichi Hasegawa
RoBERTaの近代文書への適用
RoBERTa 在现代文档中的应用
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    亀山 京右;山田 雅之;中 貴俊;兼松 篤子;宮崎 慎也;長谷川 純一
  • 通讯作者:
    長谷川 純一
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山田 雅之其他文献

q-space imaging による霊長類コモンマーモセット脊髄損傷の解析
使用 q 空间成像分析灵长类常见狨猴脊髓损伤
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤吉 兼浩;中村 雅也;疋島 啓吾;山田 雅之;北村 和也;八木 一夫;岡野 栄之;戸山 芳昭
  • 通讯作者:
    戸山 芳昭
キノリン酸代謝の低下はタウのリン酸化を亢進し、脳室拡大とドパミン神経期の低下と共に運動・認知機能の障害を惹起する
喹啉酸代谢减少会增加 tau 磷酸化,导致心室扩大、多巴胺能神经相位下降以及运动和认知功能受损。
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    毛利 彰宏;新島 萌; 國澤 和生;高野 一輝;山田 雅之; 勅使河原 知明;窪田 悠力 ;平川 茉実; 森 優子; 星 雅人; 藤垣 英嗣; 山本 康子; 長谷川 眞也;倉橋 仁美;齋藤 邦明; 鍋島 俊隆
  • 通讯作者:
    鍋島 俊隆
初年次導入科目の授業デザインと情報リテラシー教育:三重大学のスタートアップセミナーにおける教員と図書館員の協働
一年级入门科目的班级设计和信息素养教育:三重大学创业研讨会上教师和图书馆员的合作
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福安 真奈;浦田 真由;中 貴俊;山田 雅之;遠藤 守;宮崎 慎也;安田 孝美;長澤多代
  • 通讯作者:
    長澤多代
熟達過程における認知構造-スケートスキルを対象として
掌握过程中的认知结构——针对滑冰技能
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ogata;Yosihiko;山田 雅之
  • 通讯作者:
    山田 雅之
小型霊長類コモンマーモセットの側頭骨局所解剖に関する画像解析
小型灵长类狨猴颞骨局部解剖的图像分析
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤岡 正人;疋島 啓吾;岡野 ジェイムス洋尚;若林 健一郎;山田 雅之;大石 直樹;畑 純一;小川 郁
  • 通讯作者:
    小川 郁

山田 雅之的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山田 雅之', 18)}}的其他基金

日本近代公文書自動解読システムの構築
现代日本公文自动译码系统的构建
  • 批准号:
    23K20105
  • 财政年份:
    2024
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
オンラインでの協調的なスキル獲得過程における動作と認知の可視化共有システムの開発
开发在线协作技能获取过程中可视化行为和认知的共享系统
  • 批准号:
    22K12315
  • 财政年份:
    2022
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Elucidation of the onset mechanism of dyschromia due to abnormal structural proteins in the epidermis
阐明表皮异常结构蛋白引起的色素异常的发病机制
  • 批准号:
    20K17338
  • 财政年份:
    2020
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
拡散テンソル磁気共鳴画像法を用いた小型霊長類コモンマーモセットの脳内神経構造解析
使用扩散张量磁共振成像分析普通狨猴(一种小型灵长类动物)的大脑神经结构
  • 批准号:
    18700401
  • 财政年份:
    2006
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
側鎖型液晶セグメントを有するブロック共重合体の液晶相転移挙動と高次構造の解析
侧链液晶链段嵌段共聚物的液晶相变行为和高阶结构分析
  • 批准号:
    97J04296
  • 财政年份:
    1998
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
知識情報処理技術を用いた非線形システムの解析法および同定法についての研究
利用知识信息处理技术的非线性系统分析与辨识方法研究
  • 批准号:
    07780315
  • 财政年份:
    1995
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

近世近代・公私文書を通貫した東北地方における献金・寄附と地域変容に関する研究
通过近代早期及公私文献研究东北地区的捐献与地区变迁
  • 批准号:
    24K04200
  • 财政年份:
    2024
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
日本近代公文書自動解読システムの構築
现代日本公文自动译码系统的构建
  • 批准号:
    23K20105
  • 财政年份:
    2024
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
公文書管理制度を活用した近現代日本の鉄道休廃止をめぐる沿線地域と事業者の関係
使用公共记录管理系统,关于现代日本铁路暂停和关闭的沿线区域和运营商之间的关系
  • 批准号:
    23K00994
  • 财政年份:
    2023
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
近代アジアにおける現地語聖書の普及と英国外国聖書公会の文化的商業建築の研究
近代亚洲白话圣经的传播与英国外国圣经团体的文化和商业建筑研究
  • 批准号:
    23K04205
  • 财政年份:
    2023
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
『長野県行政文書(公文編冊・行政資料)』の編成過程に関する基礎的研究
《长野县行政资料(久本版/行政资料)》编制过程的基础研究
  • 批准号:
    23K00837
  • 财政年份:
    2023
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了