コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発

开发成本敏感的纸张元信息提取器和网络物理纸张浏览器

基本信息

  • 批准号:
    22H03904
  • 负责人:
  • 金额:
    $ 10.82万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

本研究は、学術論文の電子文書から様々なメタ情報をコストセンシティブに抽出する方法の確立と、抽出したメタ情報を論文閲覧支援に活用するサイバーフィジカル論文ブラウザの開発を目的とする。とりわけ論文メタ情報として参考文献の書誌情報や表を自動抽出して解析する方法を確立し、サイバー空間の関連情報を自動集約する機能などをもつ論文ブラウザを開発する。参考文献書誌情報抽出では、機械学習に基づく情報抽出器の精度と学習データの生成コストのトレードオフと、抽出誤りに対する人的修正コストを実用レベルで制御できるコストセンシティブな情報抽出の実現を目指す。さらに、学術論文から抽出した書誌情報、表の情報、専門用語などとサイバー空間の関連情報を知的に集約し、紙に印刷されたフィジカルな論文の読者に提供するためのサイバーフィジカル論文閲覧支援インタフェースを提案する。令和4年度は、学術論文の参考文献欄から書誌情報を抽出するために開発を進めてきたBidirectional Encoder Representations from Transformers(BERT)による参考文献書誌情報抽出器の抽出誤りの自動検出を試み、実験によりその検出の精度ならびに見込まれる修正コストなどを評価した。また、表中の数値データの自動グラフ変換を行うために、ニューラルネットワークを利用して、文書から表を検出しその構造を解析するエンドツーエンド表構造解析手法を開発した。さらに、論文ブラウザによる初学者の論文閲覧支援のために、引用意図に基づく引用箇所の補足情報の自動生成手法について検討した。これらの研究成果について国内研究会などで発表した。
本研究的目的是建立一种成本敏感的方法,从学术论文的电子文档中提取各种元信息,并开发一种网络物理论文浏览器,利用提取的元信息来支持论文查看。特别是,我们将建立一种自动提取和分析作为文章元信息的书目信息和参考表的方法,并开发具有自动聚合网络空间相关信息功能的文章浏览器。在参考书目信息提取中,我们的目标是实现成本敏感的信息提取,可以控制基于机器学习的信息提取器的准确性和生成训练数据的成本以及人工纠正提取错误的成本之间的权衡。实用水平。此外,我们提供网络物理论文查看支持,智能聚合从网络空间中的学术论文和相关信息中提取的书目信息、表格信息、技术术语等,并为纸质论文的读者提供建议界面。在 2020 财年,我们进行了一项实验,使用 Transformers 的双向编码器表示(BERT)自动检测双向书目信息提取器中的提取错误,该实验是为了从学术论文的参考部分中提取书目信息而开发的,我们评估了检测的准确性。以及预期的纠正成本。此外,为了将表格中的数值数据自动转换为图形,我们开发了一种端到端的表格结构分析方法,使用神经网络从文档中检测表格并分析其结构。此外,我们研究了一种根据引用意图自动生成引用段落补充信息的方法,以支持初学者使用文章浏览器阅读文章。这些研究成果在国内研究会议上进行了展示。

项目成果

期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
文の類似度と Extractive QA による被引用文特定の一手法
一种利用句子相似度和提取 QA 识别引用句子的方法
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西海真祥;金澤輝一;上野史;太田学
  • 通讯作者:
    太田学
初学者の論文閲覧支援のための日本語論文からの専門用語抽出の一手法
一种从日语论文中提取技术术语的方法,辅助初学者阅读论文
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高橋春成;金澤輝一;上野史;太田学
  • 通讯作者:
    太田学
引用意図を利用した初学者向け学術論文閲覧支援方法の検討
检查使用引用意图支持初学者阅读学术论文的方法
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西海真祥;金澤輝一;上野史;太田学
  • 通讯作者:
    太田学
ニューラルネットワークによる日本語を含む表の構造解析の一手法
一种使用神经网络对包含日语的表格进行结构分析的方法
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    細谷亮太;金澤輝一;上野史;太田学
  • 通讯作者:
    太田学
BERTによる参考文献書誌情報抽出の誤り検出の評価
使用 BERT 评估参考书目信息提取中的错误检测
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中山竣平;金澤輝一;高須淳宏;上野史;太田学
  • 通讯作者:
    太田学
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

太田 学其他文献

学校図書館法
学校图书馆法
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    川上 尚慶;太田 学;高須 淳宏;安達 淳;Atsuhiro Takasu and Manabu Ohta;平久江祐司
  • 通讯作者:
    平久江祐司
CRFによる参考文献文字列からの書誌要素抽出の一手法
一种利用CRF从参考文献字符串中提取书目元素的方法
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    荒内 大貴;太田 学;高須 淳宏;安達 淳
  • 通讯作者:
    安達 淳
多元的デジタルアーカイブズのVR-ARインターフェイスデザイン手法
多维数字档案馆VR-AR界面设计方法
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石本 茜;太田 学;高須 淳宏;安達 淳;渡邉英徳,佐藤康満
  • 通讯作者:
    渡邉英徳,佐藤康満
血液がん患者の示す治療リスク認知の楽観性に関するステージ差.
血癌患者对治疗风险认知的乐观程度存在阶段性差异。
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    入江 隆;藤田尚文;中西秀男;太田 学;平原憲道・山岸侯彦
  • 通讯作者:
    平原憲道・山岸侯彦
学術論文からの実験情報抽出の一手法
一种从学术论文中提取实验信息的方法
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    平井 久貴;新妻 弘崇;太田 学;高須 淳宏
  • 通讯作者:
    高須 淳宏

太田 学的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('太田 学', 18)}}的其他基金

コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発
开发成本敏感的纸张元信息提取器和网络物理纸张浏览器
  • 批准号:
    23K25158
  • 财政年份:
    2024
  • 资助金额:
    $ 10.82万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
確率オートマトンに基づく曖昧検索モデルの発話テキストへの適用
基于随机自动机的模糊搜索模型在口语文本中的应用
  • 批准号:
    14780329
  • 财政年份:
    2002
  • 资助金额:
    $ 10.82万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似海外基金

コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発
开发成本敏感的纸张元信息提取器和网络物理纸张浏览器
  • 批准号:
    23K25158
  • 财政年份:
    2024
  • 资助金额:
    $ 10.82万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Creation of a knowledgebase of high quality assertions of the clinical actionability of somatic variants in cancer
创建癌症体细胞变异临床可行性的高质量断言知识库
  • 批准号:
    10555024
  • 财政年份:
    2023
  • 资助金额:
    $ 10.82万
  • 项目类别:
Age Related Eye Disease Study 2 - Follow-on Study
年龄相关眼病研究 2 - 后续研究
  • 批准号:
    9568702
  • 财政年份:
    2013
  • 资助金额:
    $ 10.82万
  • 项目类别:
Age Related Eye Disease Study 2 - Follow-on Study
年龄相关眼病研究 2 - 后续研究
  • 批准号:
    9175773
  • 财政年份:
    2013
  • 资助金额:
    $ 10.82万
  • 项目类别:
Clinical and genetic analysis of retinopathy of prematurity
早产儿视网膜病变的临床及遗传学分析
  • 批准号:
    10431850
  • 财政年份:
    2010
  • 资助金额:
    $ 10.82万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了