データベース照合に基づくテキスト・エンティティの同定に関する研究

基于数据库匹配的文本实体识别研究

基本信息

  • 批准号:
    17650035
  • 负责人:
  • 金额:
    $ 2.24万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Exploratory Research
  • 财政年份:
    2005
  • 资助国家:
    日本
  • 起止时间:
    2005 至 无数据
  • 项目状态:
    已结题

项目摘要

本研究では、テキスト中に出現する特定の「エンティティ」(実世界の実在物)に関する記述を、データベース上で一元的に管理されている「レコード」に対応づけるためのエンティティ同定処理技術を研究した。特に大規模なエンティティ同定問題に特徴的な検討課題として、(i)同定候補の高速な数え上げ手法の提案、(ii)機械学習の効果的な適用、の2点に焦点をあてて検討を行った。ここで、(i)は、何千万という候補に対して1つ1つ同定のための比較関数を適用することは不可能であることから、(ii)は、言語や領域に固有の知識の実装コストを低減し同定システムの汎用性を高めるために、エンティティ同定には必須の要素技術である。これに基づき本研究においては、(i)サフィックスアレイと呼ばれるデータ構造を利用した高速数え上げ処理手法と、(ii)(i)の結果に機械学習を適用することによる同定ルールの自動獲得法および分野に特化した辞書の自動生成手法を提案した。また、論文データベースおよび図書目録を対象として、実際に数百〜数千万レコード規模のデータベースに提案手法を適用して、異なるデータベース間の統合や引用と書誌データベースの同定問題等における有効性を実証的に示した。当該分野における従来技術は主に、情報検索や機械学習の分野における既存アプローチの応用事例的な色彩が強い。これに対して本研究は、レコードやエンティティの同定問題を、「テキストを現実世界のモノに対応づけるための基盤的な技術」と捉えた点が特徴的であり、今後は適用範囲を広げ、汎用的なテキストのリンケージ技術として発展させたい。
在这项研究中,我们研究了实体识别处理技术,用于将文本中出现的特定“实体”(现实世界实体)的描述与数据库中集中管理的“记录”相关联。我们特别关注大规模实体识别问题的两个问题:(i)提出一种快速枚举识别候选者的方法,以及(ii)有效应用机器学习。这里,(i)不可能一一应用比较函数来识别数千万个候选者,(ii)基于语言和领域特定的知识,这是实体识别的一项必不可少的基础技术。降低实施成本并增加识别系统的通用性。基于此,本研究重点关注(i)使用称为后缀数组的数据结构的高速计数处理方法,以及(ii)通过将机器学习应用于(i)的结果来自动获取识别规则的方法。我们提出了一种专门针对 .此外,我们将所提出的方法应用于具有数百至数千万条记录的实际数据库,针对文章数据库和图书目录,并证明了其在不同数据库之间的集成以及引文和书目数据库识别等问题上的有效性。显示。该领域的常规技术主要是信息检索和机器学习领域现有方法的应用示例。相比之下,这项研究的独特之处在于它将识别记录和实体的问题视为“将文本与现实世界中的对象关联起来的基础技术”,并计划在未来扩大其应用范围。将该技术开发为通用文本链接技术。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
土木関連用語辞典の見出し語の分析と検索システムにおける活用に関する考察
土木工程相关术语词典中的词条分析及其在搜索系统中的使用考虑
大規模異種データベース間でのレコード同定手法とその適用例
大规模异构数据库中的记录识别方法及其应用实例
A Fast Linkage Detection Scheme for Multi-Source Information Integration
テキストコーパスからの上下関係抽出
从文本语料库中提取层次关系
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

相澤 彰子其他文献

On calculating word similarity using large text corpora
利用大文本语料库计算单词相似度
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shunsuke;Tanaka;Naomi;Fujimura;相澤 彰子;Akiko Aizawa
  • 通讯作者:
    Akiko Aizawa
和英著者キーワードからの多言語類語辞書自動構築の試み情報管理
尝试从日英作者关键词和信息管理中自动构建多语言同义词词典
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高須 淳宏;相原 健郎;相澤 彰子
  • 通讯作者:
    相澤 彰子
自然言語処理と計算代数の接合による数学問題へのアプローチ(<特集>ロボットは東大に入れるか?)
结合自然语言处理和计算代数解决数学问题的方法(<特辑>机器人能考上东京大学吗?)
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    相澤 彰子;松崎 拓也;穴井 宏和
  • 通讯作者:
    穴井 宏和
共起に基づく類似性尺度
基于共现的相似性度量
言い換え技術の文書レイアウト最適化への応用
释义技术在文档布局优化中的应用
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    城戸 祐亮;横野 光;トピチ ゴラン;相澤 彰子
  • 通讯作者:
    相澤 彰子

相澤 彰子的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('相澤 彰子', 18)}}的其他基金

文書の階層的アラインメントによる分散型知識基盤の構築
通过文档的分层对齐构建分布式知识库
  • 批准号:
    24K03231
  • 财政年份:
    2024
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Deepening linguistic analysis methods for understanding and utilizing real documents
深化理解和利用真实文档的语言分析方法
  • 批准号:
    22K19818
  • 财政年份:
    2022
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Natural Language Interface Technology to Support Complex Tasks
支持复杂任务的自然语言接口技术
  • 批准号:
    21H03502
  • 财政年份:
    2021
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
数式を含む文書の検索・利用基盤の構築に関する研究
数学公式文献检索与使用平台的构建研究
  • 批准号:
    21650023
  • 财政年份:
    2009
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
高並列統計推論による探索問題へのアプローチ
使用高度并行的统计推断来处理搜索问题
  • 批准号:
    08750488
  • 财政年份:
    1996
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
集合分割問題のためのヒューリスティック統計推論の提案と情報検索システムへの適用
集合划分问题的启发式统计推断的提出及其在信息检索系统中的应用
  • 批准号:
    07750468
  • 财政年份:
    1995
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
超平面処理に基づく集団型探索アルゴリズムの研究
基于超平面处理的集体搜索算法研究
  • 批准号:
    06750425
  • 财政年份:
    1994
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
遺伝的アルゴリズムの最適化問題への適用に関する基礎研究
遗传算法在优化问题中的应用基础研究
  • 批准号:
    05750385
  • 财政年份:
    1993
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

Development and application of statistical methods to correct for nonresponse bias in the Japan National Health and Nutrition Survey
开发和应用统计方法来纠正日本国家健康和营养调查中的无答复偏差
  • 批准号:
    15K08762
  • 财政年份:
    2015
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Life-course genetic epidemiological research of adult disease using intergenerational longitudinal twin family data
利用代际纵向双胞胎家庭数据进行成人疾病生命全程遗传流行病学研究
  • 批准号:
    24390167
  • 财政年份:
    2012
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Outsourcing of privacy preserving data mining for large-scale non-structured information
大规模非结构化信息的隐私保护数据挖掘外包
  • 批准号:
    24680015
  • 财政年份:
    2012
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Young Scientists (A)
Use of Recode Linkage of census on Medical Care Institutions and Patient Survey
使用 Recode Linkage 进行医疗机构普查和患者调查
  • 批准号:
    08209123
  • 财政年份:
    1996
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
乳児死亡に対する出生時諸要因の影響に関する保健統計学的研究
出生时各种因素对婴儿死亡率影响的卫生统计研究
  • 批准号:
    05670375
  • 财政年份:
    1993
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了