データベース照合に基づくテキスト・エンティティの同定に関する研究

基于数据库匹配的文本实体识别研究

基本信息

  • 批准号:
    17650035
  • 负责人:
  • 金额:
    $ 2.24万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Exploratory Research
  • 财政年份:
    2005
  • 资助国家:
    日本
  • 起止时间:
    2005 至 无数据
  • 项目状态:
    已结题

项目摘要

本研究では、テキスト中に出現する特定の「エンティティ」(実世界の実在物)に関する記述を、データベース上で一元的に管理されている「レコード」に対応づけるためのエンティティ同定処理技術を研究した。特に大規模なエンティティ同定問題に特徴的な検討課題として、(i)同定候補の高速な数え上げ手法の提案、(ii)機械学習の効果的な適用、の2点に焦点をあてて検討を行った。ここで、(i)は、何千万という候補に対して1つ1つ同定のための比較関数を適用することは不可能であることから、(ii)は、言語や領域に固有の知識の実装コストを低減し同定システムの汎用性を高めるために、エンティティ同定には必須の要素技術である。これに基づき本研究においては、(i)サフィックスアレイと呼ばれるデータ構造を利用した高速数え上げ処理手法と、(ii)(i)の結果に機械学習を適用することによる同定ルールの自動獲得法および分野に特化した辞書の自動生成手法を提案した。また、論文データベースおよび図書目録を対象として、実際に数百〜数千万レコード規模のデータベースに提案手法を適用して、異なるデータベース間の統合や引用と書誌データベースの同定問題等における有効性を実証的に示した。当該分野における従来技術は主に、情報検索や機械学習の分野における既存アプローチの応用事例的な色彩が強い。これに対して本研究は、レコードやエンティティの同定問題を、「テキストを現実世界のモノに対応づけるための基盤的な技術」と捉えた点が特徴的であり、今後は適用範囲を広げ、汎用的なテキストのリンケージ技術として発展させたい。
在这项研究中,我们研究了实体识别处理技术,以绘制出现在文本中的特定“实体”(现实世界真实对象)的描述,这些描述是在数据库中进行集中管理的“记录”。我们专注于两个特别特征的大型实体识别问题的问题:(i)一种快速计数方法来识别候选人的建议,以及(ii)有效应用机器学习。在这里,(i)是实体识别的必要元素技术,以降低语言和特定于领域的知识的实施成本并提高识别系统的多功能性,因为不可能为每种标识的比较功能应用于数以百万计的候选人。基于此,在这项研究中,我们提出了(i)使用称为后缀阵列的数据结构的高速计数处理方法,以及(ii)一种自动方法,通过将机器学习应用于(i)的结果和一种专门从事该领域的自动词典生成方法来获得识别规则。此外,关于纸质数据库和书目目录,将所提出的方法应用于具有数百万至数千万记录的数据库,并经验证明了其在不同数据库之间的整合以及引文和书目数据库的识别中的有效性。该领域的先前艺术主要基于信息检索和机器学习领域现有方法的应用示例。相比之下,这项研究的特征是将记录和实体识别为“将文本与现实世界相关联的基本技术”的问题,将来我们希望扩大其应用程序的范围并将其作为通用文本链接技术发展。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
土木関連用語辞典の見出し語の分析と検索システムにおける活用に関する考察
土木工程相关术语词典中的词条分析及其在搜索系统中的使用考虑
大規模異種データベース間でのレコード同定手法とその適用例
大规模异构数据库中的记录识别方法及其应用实例
A Fast Linkage Detection Scheme for Multi-Source Information Integration
テキストコーパスからの上下関係抽出
从文本语料库中提取层次关系
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

相澤 彰子其他文献

On calculating word similarity using large text corpora
利用大文本语料库计算单词相似度
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shunsuke;Tanaka;Naomi;Fujimura;相澤 彰子;Akiko Aizawa
  • 通讯作者:
    Akiko Aizawa
和英著者キーワードからの多言語類語辞書自動構築の試み情報管理
尝试从日英作者关键词和信息管理中自动构建多语言同义词词典
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高須 淳宏;相原 健郎;相澤 彰子
  • 通讯作者:
    相澤 彰子
自然言語処理と計算代数の接合による数学問題へのアプローチ(<特集>ロボットは東大に入れるか?)
结合自然语言处理和计算代数解决数学问题的方法(<特辑>机器人能考上东京大学吗?)
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    相澤 彰子;松崎 拓也;穴井 宏和
  • 通讯作者:
    穴井 宏和
共起に基づく類似性尺度
基于共现的相似性度量
言い換え技術の文書レイアウト最適化への応用
释义技术在文档布局优化中的应用
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    城戸 祐亮;横野 光;トピチ ゴラン;相澤 彰子
  • 通讯作者:
    相澤 彰子

相澤 彰子的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('相澤 彰子', 18)}}的其他基金

文書の階層的アラインメントによる分散型知識基盤の構築
通过文档的分层对齐构建分布式知识库
  • 批准号:
    24K03231
  • 财政年份:
    2024
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Deepening linguistic analysis methods for understanding and utilizing real documents
深化理解和利用真实文档的语言分析方法
  • 批准号:
    22K19818
  • 财政年份:
    2022
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Natural Language Interface Technology to Support Complex Tasks
支持复杂任务的自然语言接口技术
  • 批准号:
    21H03502
  • 财政年份:
    2021
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
数式を含む文書の検索・利用基盤の構築に関する研究
数学公式文献检索与使用平台的构建研究
  • 批准号:
    21650023
  • 财政年份:
    2009
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
高並列統計推論による探索問題へのアプローチ
使用高度并行的统计推断来处理搜索问题
  • 批准号:
    08750488
  • 财政年份:
    1996
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
集合分割問題のためのヒューリスティック統計推論の提案と情報検索システムへの適用
集合划分问题的启发式统计推断的提出及其在信息检索系统中的应用
  • 批准号:
    07750468
  • 财政年份:
    1995
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
超平面処理に基づく集団型探索アルゴリズムの研究
基于超平面处理的集体搜索算法研究
  • 批准号:
    06750425
  • 财政年份:
    1994
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
遺伝的アルゴリズムの最適化問題への適用に関する基礎研究
遗传算法在优化问题中的应用基础研究
  • 批准号:
    05750385
  • 财政年份:
    1993
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

Development and application of statistical methods to correct for nonresponse bias in the Japan National Health and Nutrition Survey
开发和应用统计方法来纠正日本国家健康和营养调查中的无答复偏差
  • 批准号:
    15K08762
  • 财政年份:
    2015
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Life-course genetic epidemiological research of adult disease using intergenerational longitudinal twin family data
利用代际纵向双胞胎家庭数据进行成人疾病生命全程遗传流行病学研究
  • 批准号:
    24390167
  • 财政年份:
    2012
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Outsourcing of privacy preserving data mining for large-scale non-structured information
大规模非结构化信息的隐私保护数据挖掘外包
  • 批准号:
    24680015
  • 财政年份:
    2012
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Young Scientists (A)
Use of Recode Linkage of census on Medical Care Institutions and Patient Survey
使用 Recode Linkage 进行医疗机构普查和患者调查
  • 批准号:
    08209123
  • 财政年份:
    1996
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
乳児死亡に対する出生時諸要因の影響に関する保健統計学的研究
出生时各种因素对婴儿死亡率影响的卫生统计研究
  • 批准号:
    05670375
  • 财政年份:
    1993
  • 资助金额:
    $ 2.24万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了