大規模電子化文書からの因果関係知識の自動獲得-接続標識に依存しない手法の検討-

从大规模电子文档中自动获取因果关系知识 - 不依赖于连接标记的方法的检验 -

基本信息

  • 批准号:
    05J72904
  • 负责人:
  • 金额:
    $ 0.7万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2005
  • 资助国家:
    日本
  • 起止时间:
    2005 至 无数据
  • 项目状态:
    已结题

项目摘要

本研究では,大規模な電子化文書集合から因果関係知識を自動的に獲得する方法論を開発した.因果関係知識獲得の従来研究では,接続標識(「ため」や「ので」)などの手掛かり語句の存在を仮定していた.そのため,大量に存在する電子化文書データを部分的にしか利用できず,獲得できる知識の被覆率が低いという問題があった.本研究では,大量に存在する電子化文書を効果的に利用できるような,接続標識の存在を仮定しない因果関係知識の自動獲得の方法論を開発,およびそのための基礎的なデータ分析を行うことを目的とした.まず,一定量の日本語文書集合を対象として,人手で因果関係情報を注釈付け,因果関係タグ付きコーパスを作成した.そして,コーパスに付与された情報を元に,文書内での因果関係の出現特性を定量的に調査した.その結果,実世界において因果関係をもつ2つの出来事対は,文書内で共起して出現しやすいことを確認した.上記の調査結果を踏まえ,既存の確率的共起モデルに基づいて,任意の出来事対が因果関係にあるか否かを判定する確率的因果モデルを提案,構築した.提案モデルでは,大量の素の共起データ(因果関係をもつか否かが未知の共起出来事対)に加え,少量の教師信号(因果関係をもつか否かが既知の共起出来事対)の情報を混合することで,出来事対の因果性が学習される.これにより,手がかり語句をもたない共起データも有効に利用できる.新聞記事を実験データに用いた評価実験を実施した結果,提案モデルは,既存モデルより優れた性能を示すことを確認した.評価尺度の一つであるF-尺度(0から1の範囲の値をとる,値が大きいほど性能がよい)を用いて性能を評価したところ,簡単なベースラインモデルでは0.623,提案モデルでは0.678であった.具体的には,クラス変数,隠れ変数を取り込んだモデルが最もよい性能を示すことを確認した.
在本研究中,我们开发了一种从大规模数字化文档集合中自动获取因果关系知识的方法,因此, ,存在大量数字化文档数据只能部分利用,导致知识覆盖率低,不假设连接指标存在的问题。本研究的目的是开发一种自动获取因果关系知识的方法,并为此进行基础数据分析,首先,我们在一组一定量的日语文档上手动注释因果关系信息,并创建一个语料库。关系标签基于提供给语料库的信息,我们定量地调查了文档内因果关系的出现特征。结果,我们发现现实世界中具有因果关系的两对事件我们确认它们倾向于共存。发生并出现。基于上述研究成果,我们提出并构建了一个基于现有概率共现数据(是否存在因果关系)来判断任意一对事件是否存在因果关系的概率因果模型。通过混合来自少量教师信号(已知是否具有因果关系的同时发生的事件对)以及事件对未知的同时发生的事件对的信息,因果关系因此,可以有效地使用没有线索词的共现数据。使用报纸文章作为实验数据进行评估实验,结果证实所提出的模型比现有模型表现出优越的性能。取一定范围的值,值越大,性能越好。当我们使用Confirmed评估性能时。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
文書内に現れる因果関係の出現特性調査
调查文档中出现的因果关系的外观特征
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    乾孝司
  • 通讯作者:
    乾孝司
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

乾 孝司其他文献

テキストを対象とした評価情報の分析に関する研究動向
文本评价信息分析的研究动态
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    乾 孝司; 奥村 学
  • 通讯作者:
    奥村 学

乾 孝司的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('乾 孝司', 18)}}的其他基金

メタ情報に頼らない高被覆旅行記ジオロケーション技術の開発
开发不依赖元信息的高覆盖游记地理定位技术
  • 批准号:
    21K12137
  • 财政年份:
    2021
  • 资助金额:
    $ 0.7万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似海外基金

Regulation of anti-tumor immunity by HDAC11
HDAC11 调节抗肿瘤免疫
  • 批准号:
    10737814
  • 财政年份:
    2020
  • 资助金额:
    $ 0.7万
  • 项目类别:
Regulation of anti-tumor immunity by HDAC11
HDAC11 调节抗肿瘤免疫
  • 批准号:
    10737815
  • 财政年份:
    2020
  • 资助金额:
    $ 0.7万
  • 项目类别:
Regulation of anti-tumor immunity by HDAC11
HDAC11 调节抗肿瘤免疫
  • 批准号:
    10640210
  • 财政年份:
    2020
  • 资助金额:
    $ 0.7万
  • 项目类别:
Development of a System for Collecting Context Data for Large-Scale Inverse Reinforcement Learning
开发用于大规模逆强化学习的上下文数据收集系统
  • 批准号:
    17K00295
  • 财政年份:
    2017
  • 资助金额:
    $ 0.7万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A Randomized Trial of Letting Go and Staying Connected, an Interactive Parenting Intervention to Reduce Risky Behaviors Among Students
放手和保持联系的随机试验,减少学生危险行为的互动育儿干预
  • 批准号:
    9977140
  • 财政年份:
    2016
  • 资助金额:
    $ 0.7万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了