Understanding of Essential Character Structure for Machine Learning and Kuzushiji Recognition
理解机器学习和葛饰记识别的基本字符结构
基本信息
- 批准号:22K12729
- 负责人:
- 金额:$ 2.41万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本年度は、文字部位に着目した古典籍中の少数サンプル文字認識手法を開発した。一般的なくずし字認識手法が文字種毎に多量のサンプルを必要とするのに対し、現実では多くの文字種においてサンプルが不足している。具体的には最大級のくずし字データセットにおいてすら、文字種の約1/3はたった3枚以下のサンプルしか持たない。本研究ではこうした少数サンプル文字種や無サンプル文字種の認識のため、漢字中の文字部位に着目したくずし字認識手法を開発した。例えば「字」という漢字は大まかに上部「宀」と下部「子」から構成される。この上部と下部から構成される漢字の構成方法は他の多くの漢字に共通すると同時に、文字部位「宀」「子」もまた他の多くの漢字に共通する。こうした多様な漢字に共通する文字部位要素の認識であれば、多サンプル文字種を活用した学習が可能である。そこで本研究では文字部位に着目することによって、少数サンプル文字種や無サンプル文字種のより高精度な認識を行った。本研究では、漢字構造データベースを活用し日本語漢字文字における文字部位に着目したラベルの作成とくずし字画像への文字部位情報の付与を行った。また文字部位特徴を効果的に得るための擬似的漢字文字画像サンプルによる事前学習を開発した。この事前学習を施した特徴抽出器について、作成したくずし字サンプルを用いてファインチューニングすることで、くずし字画像から有効に文字部位特徴を得られる文字部位特徴抽出器を作成した。この文字部位特徴抽出器及び最近傍法から構成される新しいくずし字認識器を提案した。
今年,我们开发了一种识别少数古典文学样本的方法,重点是角色部分。虽然一般的坩埚角色识别方法需要大量的每种字符类型样本,但实际上,许多字符类型都缺乏样本。具体而言,即使在最大的Kuzushi-chan数据集中,大约1/3个字符类型仅容纳三个样本。在这项研究中,我们开发了一种识别这些小型和非样本角色类型的方法,该类型的重点是汉字的角色部分。例如,汉字字符“字符”大致由顶部“ cun”和底部“ cun”组成。构造汉字的方法由顶部和底部组成,对许多其他汉字来说是共同的,而角色部分“ sin”和“ ko”也是许多其他汉字的共同点。如果我们识别这些各种汉字字符共有的字符部分元素,则可以使用多种示例字符类型进行学习。因此,在这项研究中,我们专注于角色部分,并更准确地识别了少数族裔和非样本特征类型。在这项研究中,我们使用汉字结构数据库来创建关注日本汉字字符的角色部分的标签,并将字符部分信息分配给Kuzushi字符的图像。我们还使用伪肯尼角色图像样品开发了预先学习,以有效地获得特征零件特征。使用创建的kuzushi-ji样品对此进行了学习的特征提取器进行微调,以创建一个角色零件提取器,从而有效地从kuzushi-ji图像中获得字符零件特征。我们提出了一个由此特征特征提取器和最近的邻居方法组成的新的擦洗字符识别设备。
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
宮崎 智其他文献
データ駆動型人文学研究の発展とAIによるくずし字認識
利用人工智能开发数据驱动的人文研究和葛藤识别
- DOI:
10.20676/00000352 - 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
北本 朝展;カラーヌワット タリン;宮崎 智;山本 和明;北本 朝展;北本 朝展 - 通讯作者:
北本 朝展
薬学共用試験CBT―2018年度結果について
制药通用测试 CBT - 2018 年结果
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
石川さと子;伊藤智夫;中村明弘;増野匡彦;石塚忠男;松野純男;前田定秋;小澤孝一郎;出口芳春;三田智文;飯島史朗;宮崎 智;矢ノ下良平;奥 直人 - 通讯作者:
奥 直人
カロリー制限時の白色脂肪組織におけるSrebp-1 支配的遺伝子発現変動の網羅的解析
热量限制期间白色脂肪组织中Srebp-1显性基因表达变化的综合分析
- DOI:
- 发表时间:
2009 - 期刊:
- 影响因子:0
- 作者:
仲條 良和;沖田 直之;伊藤 麻希子;鈴木 智典;宮崎 智;樋上 賀一 - 通讯作者:
樋上 賀一
オブジェクトベースの符号化のための画像抽象化を用いた分割圧縮
使用图像抽象进行基于对象编码的分区压缩
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
小笠原和也;宮崎 智;菅谷至寛;大町真一郎;石森亮輔;石森亮輔 - 通讯作者:
石森亮輔
宮崎 智的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
Investigating foreign language processing systems with special reference to syntactic aspects
研究外语处理系统,特别关注句法方面
- 批准号:
20700241 - 财政年份:2008
- 资助金额:
$ 2.41万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
日本語文の並列構造推定法の構築およびその推敲支援システムへの応用に関する研究
日语句子并行结构估计方法的构建及其在精化支持系统中的应用研究
- 批准号:
09780389 - 财政年份:1997
- 资助金额:
$ 2.41万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
日本語文章推敲支援システムにおける名詞並列の構造推定に関する研究
日语文本精化支持系统名词排比结构估计研究
- 批准号:
08780401 - 财政年份:1996
- 资助金额:
$ 2.41万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)