技術文書中の画像と説明文の対応付けによる知識体系の構築
通过关联技术文档中的图像和解释性文本来构建知识体系
基本信息
- 批准号:22K12154
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
幅広い分野の一連の手続きに関する知識をテキストから自動抽出し、それらを体系化することを目指している。2022年度は、(1)特許中の図表の自動分類、(2)自然言語文の構造解析、(3)多言語(日英中)上位下位関係の抽出に取り組んだ。(1)について、特許中に記載される図表画像の中からフローチャートを自動抽出することで、フローチャート画像とその説明文の11,188対から構成されるコーパスを構築した。このコーパスの有効性を確認するため、フローチャート画像からの説明文の自動生成を行った。説明文の生成では、フローチャート画像からGoogle Cloud Vision APIを用いて文字列を抽出し、この文字列から説明文を自動生成するために、Text-To-Text Transfer Transformer(T5)を用いて学習した。実験の結果、複雑な形状のフローチャートについては課題が残るものの、質の高い説明文が生成できることが確認できた。(2)について、米国特許を対象に、特許請求項から主要部、構成要素、手順に関する文字列を抽出する手法について検討した。抽出には、T5、Bi-LSTM-CRF、CRFを用いた。実験の結果、T5が最も優れており、特に再現率を大幅に改善できることがわかった。(3)について、リンク予測モデルによる日英中上位下位関係の自動抽出を行った。まず、GANを用いて上位下位関係にある用語を識別する。次に、前の手順で構築された上位下位関係のグラフに対し、ConvEとGraphSAGEを組み合わせたリンク予測を行い、本来であれば上位下位関係にあるべき欠落したエッジを予測する。提案手法の有効性を確認するために行った実験では、GANを用いた上位下位関係の識別およびConvEとGraphSAGEを組み合わせたリンク予測の両方において、提案手法が従来手法よりも優れていることがわかった。
目的是从文本中自动提取有关广泛领域的一系列程序的知识并将其系统化。 2022财年,我们开展了(1)专利中图形和表格的自动分类、(2)自然语言句子的结构分析、(3)多语言(日语、英语、汉语)上下级关系的提取。关于(1),通过从专利中描述的图表图像中自动提取流程图,我们构建了一个由 11,188 对流程图图像及其解释文本组成的语料库。为了确认该语料库的有效性,我们从流程图图像自动生成解释文本。为了生成解释性文本,我们使用 Google Cloud Vision API 从流程图图像中提取字符串,并学习使用文本到文本传输转换器 (T5) 自动从该字符串生成解释性文本。实验结果表明,尽管形状复杂的流程图仍然存在问题,但可以生成高质量的解释性文本。关于(2),我们研究了一种从美国专利的专利权利要求中提取与主要部分、构成要素和程序相关的字符串的方法。使用T5、Bi-LSTM-CRF和CRF进行提取。实验结果,我们发现T5是最好的,可以显着提高召回率。关于(3),我们使用链接预测模型自动提取日本、英国和中国之间的上下关系。首先,我们使用 GAN 来识别处于上下级关系的术语。接下来,我们使用 ConvE 和 GraphSAGE 的组合对上一步构建的上下关系图进行链接预测,以预测通常应该处于上下关系中的缺失边。在验证该方法有效性的实验中,发现该方法在使用 GAN 识别上下关系以及使用 ConvE 和 GraphSAGE 组合进行链接预测方面均优于传统方法。
项目成果
期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Analyzing the Structure of U.S. Patents Using Patent Families
使用专利族分析美国专利的结构
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Nakamitsu; J.; Fukuda; S.;Nanba; H.
- 通讯作者:H.
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
難波 英嗣其他文献
Working notes of the fourth NTCIR workshop meeting
第四次NTCIR研讨会工作记录
- DOI:
- 发表时间:
2004 - 期刊:
- 影响因子:0
- 作者:
岸田 和明;神門 典子;栗山 和子;Haruko Ishikawa;Atsushi Fujii;Makoto Iwayama;Jun;Tsuneaki Kato;Fumito Masui;T. Fukusima;T. Hirao;難波 英嗣;奥村 学 - 通讯作者:
奥村 学
投稿レシピのネーミングに対する多義的コンセプト抽出手法の提案
用于命名发布菜谱的多义概念提取方法的提出
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
若宮 翔子;河合 由起子;難波 英嗣;角谷 和俊 - 通讯作者:
角谷 和俊
難波 英嗣的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('難波 英嗣', 18)}}的其他基金
文書集合の構造化に基づく効率的な情報アクセス技術の開発
基于文档集结构化的高效信息访问技术的开发
- 批准号:
16700151 - 财政年份:2004
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
論文間の参照情報を考慮した学術論文要約システムの開発
考虑论文之间参考信息的学术论文摘要系统的开发
- 批准号:
01J11226 - 财政年份:2001
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
フローチャートで表現できない証明の読解力・表現力を養成する指導法
一种培养阅读和表达无法用流程图表达的证明的能力的教学方法。
- 批准号:
24K05951 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
有事の医療現場にて日和見感染症抑止に絶大な効果を発揮するフローチャートの開発
开发在紧急医疗环境中预防机会性感染极其有效的流程图
- 批准号:
23K09484 - 财政年份:2023
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
2週間の排便日誌から排便パターンを分類する新しい看護アセスメント方法の確立
建立一种新的护理评估方法,根据两周排便日记对排便模式进行分类
- 批准号:
22K10679 - 财政年份:2022
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of Integrated Development Environment with Teaching Support for Programming Learning
编程学习教学支持集成开发环境的开发
- 批准号:
20K12097 - 财政年份:2020
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of a foot care protocol by visiting nurses for the elderly in home care
通过拜访护士为家庭护理老年人制定足部护理方案
- 批准号:
20K10983 - 财政年份:2020
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)