談話構造を用いた教師なし文書要約生成

使用话语结构的无监督文档摘要生成

基本信息

  • 批准号:
    20J10726
  • 负责人:
  • 金额:
    $ 1.09万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-24 至 2022-03-31
  • 项目状态:
    已结题

项目摘要

情報爆発が叫ばれる現代において、文章から重要な情報を抽出し纏める自動文書要約技術への期待は日々高まっている。自動文書要約のアプローチは、要約に相 応しい文や節を抽出する抽出型要約と、単語や句の言い換え・一般化を行う生成型要約に分けられる。生成型要約はより人手に近い自動要約を実現でき、その確立は自動要約研究の大きな目標である。一方で、生成型要約は見本となる要約(参照要約)を大量に要し、現実の文書の多くは参照要約の数が少なく、それらの用意に多大な労力を要することから、実用上の大きな障害となっている。そこで本研究では、前年度に開発した木構造トピックモデルにより文書のトピック木構造を推定し、各トピックの要約文を生成する手法を開発した。当初の計画では談話構造木のトピック分割による要約生成を計画していたが、最新の文生成研究に基づきトピックごとの要約文を生成するアプローチに切り替えた。木構造上のトピックから要約として相応しい詳細度合いのトピックを選択し、各トピックに関する要約文を生成することで、意見文書の要約が教師なしに得られることを示した。評価実験では、提案法の要約性能は最新の教師なし生成型要約手法と競合することを確認した。また、トピック文の詳細度合いはその潜在分布の分散の大きさに依存し、根の文の潜在分布は分散が大きく一般的な文が生成される一方、葉に近づくにつれ分散が小さくなり具体的な文が生成されるといった特性を確認した。以上の成果を取り纏めた論文は、計算言語学のトップジャーナルTACLに採択された、言語処理学会第27回年次大会で若手奨励賞を、情報処理学会第246回自然言語処理研究会で優秀研究賞および山下記念研究賞を受賞した。
在当今信息爆炸的时代,人们对​​能够从文本中提取和总结重要信息的自动文档摘要技术的期望与日俱增。自动文档摘要方法可以分为提取式摘要(提取适合摘要的句子和从句)和生成式摘要(释义和概括单词和短语)。生成摘要可以实现更类似于人工摘要的自动摘要,其建立是自动摘要研究的一个主要目标。另一方面,生成式摘要需要大量的样本摘要(参考摘要),而很多真实的文献只有少量的参考摘要,而且需要花费很大的精力去准备,所以在它已成为一个障碍。因此,在本研究中,我们开发了一种方法,使用前一年开发的树结构主题模型来估计文档的主题树结构,并为每个主题生成摘要句子。最初的计划是通过将语篇结构树划分为主题来生成摘要,但我们改为根据最新的句子生成研究为每个主题生成摘要的方法。结果表明,通过从树结构的主题中选择具有适合摘要的详细程度的主题并为每个主题生成摘要句子,可以在没有监督的情况下获得意见文档的摘要。在评估实验中,我们证实该方法的摘要性能与最新的无监督生成摘要方法具有竞争力。此外,主题句的详细程度取决于其潜在分布的方差量,虽然根句子的潜在分布具有很大的方差并生成一般句子,但随着靠近叶子,方差会减小我们确认了系统的特征,例如生成句子的能力。总结上述成果的论文被计算语言学顶级期刊TACL接收,获得第27届语言处理学会年会青年科学家鼓励奖,并获得第246届自然语言处理研究组杰出研究奖日本信息处理学会奖和山下纪念研究奖。

项目成果

期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
リヴァプール大学(英国)
利物浦大学(英国)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
木構造ニューラルトピックモデル
树结构神经主题模型
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    磯沼 大; 森 純一郎; ボレガラ ダヌシカ; 坂田 一郎
  • 通讯作者:
    坂田 一郎
リヴァプール大学(英国)
利物浦大学(英国)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Tree-Structured Neural Topic Model
树结构神经主题模型
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Masaru Isonuma; Junichiro Mori; Danushka Bollegala; Ichiro Sakata
  • 通讯作者:
    Ichiro Sakata
潜在的なトピック構造を捉えた生成型教師なし意見要約(優秀研究賞、山下記念研究賞)
捕获潜在主题结构的生成式无监督意见摘要(优秀研究奖、山下纪念研究奖)
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    磯沼 大; 森 純一郎; ボレガラ ダヌシカ; 坂田 一郎
  • 通讯作者:
    坂田 一郎
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

磯沼 大其他文献

文書分類とのマルチタスク学習による重要文抽出
通过文档分类的多任务学习提取重要句子
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    磯沼 大
  • 通讯作者:
    磯沼 大

磯沼 大的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

Generative Summarization Based on Stepwise Extraction and Rewriting
基于逐步提取和重写的生成摘要
  • 批准号:
    19K20339
  • 财政年份:
    2019
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
要求仕様書の自動要約ツールの開発と適用評価
需求规格自动汇总工具的开发与应用评估
  • 批准号:
    19K11907
  • 财政年份:
    2019
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Study on Improving Performance of Natural Language Processing by Integrating Collocation Extraction and Deep Learning
搭配抽取与深度学习相结合提高自然语言处理性能的研究
  • 批准号:
    19K20333
  • 财政年份:
    2019
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Research on AI's reading comprehension of multimedia data for improving language proficiency
AI多媒体数据阅读理解提高语言能力研究
  • 批准号:
    18K11557
  • 财政年份:
    2018
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Abatractive Generation of Paragraph Titles
段落标题的缩减生成
  • 批准号:
    16K00441
  • 财政年份:
    2016
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了