Deepening linguistic analysis methods for understanding and utilizing real documents
深化理解和利用真实文档的语言分析方法
基本信息
- 批准号:22K19818
- 负责人:
- 金额:$ 4.08万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Challenging Research (Exploratory)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-06-30 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
現在の自然言語処理は、入力単位としてトークンの並びである「文」または「文の集合」を想定している。しかし、現実の文書には、レイアウト構造や表示スタイルなどが混然一体となって埋め込まれ、読みを支援する「手がかり」として機能している。人間が文書を読む際には、視覚的な入力を通してこのような手がかりを即座に解読して、「文」の意味理解へとつなげていると考えられる。そこで本研究では、文書中に埋め込まれた非言語情報を抽出・活用するための文書解析手法を検討する。具体的には、(1)レイアウトされた文書やインタラクティブなメディア(ウェブ上のフォーム)などの文書全体、(2)文書中の非言語要素(数式など)と対応する説明文(3)言語音意味とは独立の編集的な属性(例:大文字・小文字の違い)の3つの文書構成要素に注目する。そして、これらを分析・モデル化することで、人間の可読性を高めたり、計算機の言語処理性能を向上したりするための手法を開発する。初年度である2022年度は、近年の大規模言語モデルの登場を踏まえて関連分野の調査を行うとともに、上記3つの研究課題に取り組んだ。
当前的自然语言处理假定“语句”或“一组语句”,它们是代币作为输入单元的序列。但是,实际文档嵌入了布局结构和显示样式的混合物中,并充当“线索”以帮助阅读。当人类阅读文档时,人们相信这些提示会通过视觉输入立即解密,从而理解“句子”的含义。因此,本研究研究了文档分析方法用于提取和利用文档中嵌入的非语言信息。 Specifically, we will focus on three document components: (1) the entire document, such as a laid-back document or interactive media (forms on the web), (2) the non-verbal elements (e.g., mathematical expressions) in the document and corresponding explanatory texts, and (3) editable attributes (e.g., differences in uppercase and lowercase letters) that are independent of the linguistic sound meaning.通过分析和建模这些,开发了改善人类可读性并提高计算机语言处理性能的方法。在2022年的第一年,我们根据最近的大规模语言模型的出现,对相关领域进行了研究,并从事以上三个研究主题的研究。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Effect of Letter Case on Named Entity Recognition Performance
字母大小写对命名实体识别性能的影响
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Tuan An Dao;Akiko Aizawa
- 通讯作者:Akiko Aizawa
共 2 条
- 1
相澤 彰子其他文献
和英著者キーワードからの多言語類語辞書自動構築の試み情報管理
尝试从日英作者关键词和信息管理中自动构建多语言同义词词典
- DOI:
- 发表时间:20042004
- 期刊:
- 影响因子:0
- 作者:高須 淳宏;相原 健郎;相澤 彰子高須 淳宏;相原 健郎;相澤 彰子
- 通讯作者:相澤 彰子相澤 彰子
On calculating word similarity using large text corpora
利用大文本语料库计算单词相似度
- DOI:
- 发表时间:20082008
- 期刊:
- 影响因子:0
- 作者:Shunsuke;Tanaka;Naomi;Fujimura;相澤 彰子;Akiko AizawaShunsuke;Tanaka;Naomi;Fujimura;相澤 彰子;Akiko Aizawa
- 通讯作者:Akiko AizawaAkiko Aizawa
自然言語処理と計算代数の接合による数学問題へのアプローチ(<特集>ロボットは東大に入れるか?)
结合自然语言处理和计算代数解决数学问题的方法(<特辑>机器人能考上东京大学吗?)
- DOI:
- 发表时间:20122012
- 期刊:
- 影响因子:0
- 作者:相澤 彰子;松崎 拓也;穴井 宏和相澤 彰子;松崎 拓也;穴井 宏和
- 通讯作者:穴井 宏和穴井 宏和
共起に基づく類似性尺度
基于共现的相似性度量
- DOI:
- 发表时间:20072007
- 期刊:
- 影响因子:0
- 作者:中渡 瀬秀一;相澤 彰子;相澤 彰子中渡 瀬秀一;相澤 彰子;相澤 彰子
- 通讯作者:相澤 彰子相澤 彰子
言い換え技術の文書レイアウト最適化への応用
释义技术在文档布局优化中的应用
- DOI:
- 发表时间:20152015
- 期刊:
- 影响因子:0
- 作者:城戸 祐亮;横野 光;トピチ ゴラン;相澤 彰子城戸 祐亮;横野 光;トピチ ゴラン;相澤 彰子
- 通讯作者:相澤 彰子相澤 彰子
共 21 条
- 1
- 2
- 3
- 4
- 5
相澤 彰子的其他基金
文書の階層的アラインメントによる分散型知識基盤の構築
通过文档的分层对齐构建分布式知识库
- 批准号:24K0323124K03231
- 财政年份:2024
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Scientific Research (B)Grant-in-Aid for Scientific Research (B)
Natural Language Interface Technology to Support Complex Tasks
支持复杂任务的自然语言接口技术
- 批准号:21H0350221H03502
- 财政年份:2021
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Scientific Research (B)Grant-in-Aid for Scientific Research (B)
数式を含む文書の検索・利用基盤の構築に関する研究
数学公式文献检索与使用平台的构建研究
- 批准号:2165002321650023
- 财政年份:2009
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Challenging Exploratory ResearchGrant-in-Aid for Challenging Exploratory Research
データベース照合に基づくテキスト・エンティティの同定に関する研究
基于数据库匹配的文本实体识别研究
- 批准号:1765003517650035
- 财政年份:2005
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Exploratory ResearchGrant-in-Aid for Exploratory Research
高並列統計推論による探索問題へのアプローチ
使用高度并行的统计推断来处理搜索问题
- 批准号:0875048808750488
- 财政年份:1996
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)Grant-in-Aid for Encouragement of Young Scientists (A)
集合分割問題のためのヒューリスティック統計推論の提案と情報検索システムへの適用
集合划分问题的启发式统计推断的提出及其在信息检索系统中的应用
- 批准号:0775046807750468
- 财政年份:1995
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)Grant-in-Aid for Encouragement of Young Scientists (A)
超平面処理に基づく集団型探索アルゴリズムの研究
基于超平面处理的集体搜索算法研究
- 批准号:0675042506750425
- 财政年份:1994
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)Grant-in-Aid for Encouragement of Young Scientists (A)
遺伝的アルゴリズムの最適化問題への適用に関する基礎研究
遗传算法在优化问题中的应用基础研究
- 批准号:0575038505750385
- 财政年份:1993
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
科学技術論文における長く複雑な文の構文解析
解析科技论文中的长而复杂的句子
- 批准号:22K1795722K17957
- 财政年份:2022
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Early-Career ScientistsGrant-in-Aid for Early-Career Scientists
Study on the enhancer grammar that specifies cell type-specific gene expression
指定细胞类型特异性基因表达的增强子语法的研究
- 批准号:22K0618922K06189
- 财政年份:2022
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Scientific Research (C)Grant-in-Aid for Scientific Research (C)
ニューラル言語モデルからの文法の抽出に関する研究
神经语言模型语法提取研究
- 批准号:20K1987720K19877
- 财政年份:2020
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Early-Career ScientistsGrant-in-Aid for Early-Career Scientists
形式意味論と言語処理の融合による構成的言語モデルの開発
结合形式语义和语言处理开发组合语言模型
- 批准号:20K1986820K19868
- 财政年份:2020
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Early-Career ScientistsGrant-in-Aid for Early-Career Scientists
Structural modeling and automatic generation of Japanese text
日语文本的结构建模和自动生成
- 批准号:18H0328518H03285
- 财政年份:2018
- 资助金额:$ 4.08万$ 4.08万
- 项目类别:Grant-in-Aid for Scientific Research (B)Grant-in-Aid for Scientific Research (B)