Abstractive Neural Multi-document Summarization Considering Cross Document Structure
考虑跨文档结构的抽象神经多文档摘要
基本信息
- 批准号:21H03495
- 负责人:
- 金额:$ 10.98万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
テキスト内の文間の関係を解析する文書構造解析器は,我々のグループが世界最高性能を達成していたが,引き続き研究開発を継続し,新しい手法を提案することで,現在も世界最高性能を維持している.この分野の技術の進歩を明確にできるよう,既存の上向き,下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した.この解析器を評価した結果,解析戦略には大きな差がなく,トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった.特に,DeBERTa を用いると世界最高性能を達成した.また,十分な量の学習データを確保できないことにより,文間の修辞構造解析の性能は文内と比較して大幅に低く,下流タスクにとって大きな問題となっている.これを解決するため,学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し,正解データを用いて追加学習する手法を提案した.シフト還元法による上向き解析器,スパン分割による下向き解析器に提案法を適用し,標準的ベンチマークデータセットであるRST-DT,Instr-DT を用いて評価した結果,疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した.
我们小组在分析文本中句子之间的关系的文档结构分析器方面取得了世界最高的性能,并且通过持续研究和开发并提出新方法,我们目前正在保持世界最高的性能。为了突出该领域的技术进步,我们通过将现有的向上和向下解析策略与最新的预训练语言模型相结合,构建了一个强大的基线分析器。通过评估该分析器,我们发现分析策略没有重大差异,并且采用跨度掩码而不是令牌掩码的预训练语言模型是有效的。特别是,使用 DeBERTa,我们实现了世界最高的性能。此外,由于无法获得足够的训练数据,句子之间的修辞结构分析性能明显低于句子内部,这也是下游任务的一个主要问题。为了解决这个问题,我们提出了一种方法,其中使用通过反向翻译训练数据获得的伪正确数据预先训练分析器,并使用正确数据进行额外训练。我们将所提出的方法应用于使用平移缩减方法的向上分析器和使用跨度划分的向下分析器,并使用标准基准数据集 RST-DT 和 Instr-DT 对其进行评估 - 我们确认 ParsEval 分数提高了约 1。 -2分。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Neural RST-Style Discourse Parsing Exploiting Agreement Sub-trees as Silver Data
神经 RST 风格的话语解析利用协议子树作为白银数据
- DOI:10.5715/jnlp.29.875
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:小林尚輝;平尾努;上垣外英剛;奥村学;永田昌明
- 通讯作者:永田昌明
言語モデルと解析戦略の 観点からの修辞構造解析器の比較
从语言模型和分析策略角度比较修辞结构分析器
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:小林尚輝;平尾努;上垣外英剛;奥村学;永田昌明
- 通讯作者:永田昌明
逆翻訳を利用したデータ拡 張による文間の修辞構造解析の改善
通过使用反向翻译扩展数据来改进句子之间的修辞结构分析
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:前川在;小林尚輝;平尾努;上垣外英剛;奥村学
- 通讯作者:奥村学
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
奥村 学其他文献
対話型意見収集システムの評価方法の検討
交互式意见收集系统评价方法的思考
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
大塚 裕子;乾 孝司;鈴木 泰山;丸元 聡子;伊藤 裕美;奥村 学 - 通讯作者:
奥村 学
Automatic Extraction of Travel Blog Entries
自动提取旅游博客条目
- DOI:
10.18996/kenkyu2016390305 - 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
藤井 一輝;難波 英嗣;竹澤 寿幸;石野 亜耶;奥村 学;倉田 洋平;石野 亜耶 - 通讯作者:
石野 亜耶
複数のソーシャルメディアアカウントの関連付け防止システムの構築
建立防止多个社交媒体帐户关联的系统
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
木原 裕二;笹野 遼平;高村 大也;奥村 学 - 通讯作者:
奥村 学
埒外の生態学にむけて―寄生と依存が生み出す社会
走向国界之外的生态:一个由寄生和依赖创造的社会
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
曹 国林;高村 大也;奥村 学;佐藤洋一郎;内藤直樹 - 通讯作者:
内藤直樹
奥村 学的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('奥村 学', 18)}}的其他基金
大規模事前学習モデルを活用した生成型複数テキスト要約に関する研究
使用大规模预训练模型的生成式多文本摘要研究
- 批准号:
24K02997 - 财政年份:2024
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
日タイブログを対象とした多観点言語横断ブログ検索
针对日语和泰语博客的多语言跨语言博客搜索
- 批准号:
08F08365 - 财政年份:2008
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for JSPS Fellows
対話に基づく意見収集・分析システムの構築に向けて
构建基于对话的意见收集与分析体系
- 批准号:
18650031 - 财政年份:2006
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Exploratory Research
blog上の意見分析のためのblogへの属性付与
为博客添加属性以进行博客观点分析
- 批准号:
18049025 - 财政年份:2006
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
情報に対する注目と価値判断のモデル化
建模对信息和价值判断的关注
- 批准号:
15650022 - 财政年份:2003
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Exploratory Research
仮想世界のキャラクタを用いた動作生成と身体的理解の研究
使用虚拟世界角色进行动作生成和物理理解的研究
- 批准号:
02F00607 - 财政年份:2002
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for JSPS Fellows
Web上のテキストデータを対象とした複数テキスト要約に関する研究
网络文本数据的多文本摘要研究
- 批准号:
14019036 - 财政年份:2002
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
自然言語処理技術を応用した外国語自習支援システムに関する研究
应用自然语言处理技术的外语自学支持系统研究
- 批准号:
12040217 - 财政年份:2000
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas (A)
談話情報付きコーパスの構築とそれを用いた談話解析に関する研究
语篇信息语料库构建及语篇分析研究
- 批准号:
08837009 - 财政年份:1996
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
相似海外基金
大規模事前学習モデルを活用した生成型複数テキスト要約に関する研究
使用大规模预训练模型的生成式多文本摘要研究
- 批准号:
24K02997 - 财政年份:2024
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
日本語学習者が複数の文章を読む過程における読解技術の解明
阐明日语学习者在阅读多篇文章过程中的阅读理解能力
- 批准号:
20K13082 - 财政年份:2020
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Web上のテキストデータを対象とした複数テキスト要約に関する研究
网络文本数据的多文本摘要研究
- 批准号:
14019036 - 财政年份:2002
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
関連する複数のテキストを対象とした要約生成技術に関する研究
多相关文本摘要生成技术研究
- 批准号:
09480062 - 财政年份:1997
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)