Study on Information Retrieval based on Similarity Calculation of Intra-Document Structure

基于文档内结构相似度计算的信息检索研究

基本信息

  • 批准号:
    11680383
  • 负责人:
  • 金额:
    $ 2.3万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    1999
  • 资助国家:
    日本
  • 起止时间:
    1999 至 2000
  • 项目状态:
    已结题

项目摘要

The purpose of this research is establishment of the method for "content"-based information retrieval. In our research, the "content" is regarded as the combination of the following items : a) Logical structure of document annotated by tags, b) Text, and c) Information extracted by the technology of Information Extraction.Through the two year research, we obtained the following results :1. Extraction of structure of intra-documents based on similarity among passages :By using not only intra-document information but also inter-document information, we improve the effectiveness of retrieving relevant portions of document.2. Multi-strategic named entity recognizer based on machine learning and extraction patterns :By combining those two types of strategies for named entity task, we improve the accuracy of recognition of named entities.3. Extraction of numerical information and its application to Question Answering :We consider "Question Answering" is the one of the ideal context retrieval system. Named entities correspond to the answer for the 4W-type questions. On the other hand, it is numerical expressions what corresponds to H-type questions. Therefore, we proposed a method to extract numerical expressions with its context as a part of a QA system.
本研究的目的是建立基于“内容”的信息检索方法。在我们的研究中,“内容”被认为是以下几项的组合:a)由标签注释的文档的逻辑结构,b)文本,c)通过信息提取技术提取的信息。通过两年的研究,我们得到以下结果: 1.基于段落相似性的文档内结构提取:通过使用文档内信息和文档间信息,我们提高了检索文档相关部分的效率。 2.基于机器学习和提取模式的多策略命名实体识别器:通过将这两类策略结合起来进行命名实体任务,提高了命名实体识别的准确性。 3.数值信息的提取及其在问答中的应用:我们认为“问答”是最理想的上下文检索系统之一。命名实体对应于 4W 类型问题的答案。另一方面,H类问题对应的是数值表达式。因此,我们提出了一种提取数值表达式及其上下文的方法,作为 QA 系统的一部分。

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
T.Mori, S.Tanaka and H.Nakagawa: "Similarity Calculation of Segment Retrieval for Aid in reading Related Documents"Proceedings of Natural Language Processing Pacific Rim Symposium '99. 178-183 (1999)
T.Mori、S.Tanaka 和 H.Nakakawa:“用于辅助阅读相关文档的片段检索的相似性计算”自然语言处理环太平洋研讨会 99 论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Mori,M.Kikuchi,K.Yoshida: "Term Weighting Method based on Information Gain Ratio for Summarizing Documents retrieved by IR systems"Proceedings of NTCIR Workshop 2 Meeting. (2001)
T.Mori、M.Kikuchi、K.Yoshida:“基于信息增益比的术语加权方法,用于总结 IR 系统检索的文档”NTCIR 研讨会 2 会议记录。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Mori,M.Matsuo,H.Nakagawa: "Zero pronoun resolution by Linguistic Constraints and Defaults"The Machine Translation Journal. 14・2-3. (2000)
T.Mori、M.Matsuo、H.Nakakawa:“语言约束和默认的零代词解析”机器翻译杂志 14・2-3。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Mori,S.Tanaka,H.Nakagawa: "Similarity Calculation of Segment Retrieval for Aid in reading Related Documents"Proceedings of Natural Language Processing Pacific Rim Symposium '99. 178-183 (1999)
T.Mori、S.Tanaka、H.Nakakawa:“用于辅助阅读相关文档的片段检索的相似性计算”自然语言处理环太平洋研讨会 99 论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Mori,T.Kokubu,T.Tanaka: "Cross-Lingual Information Retrieval based on LSI with Multiple Word Spaces"Proceedings of NTCIR Workshop 2 Meeting. (2001)
T.Mori、T.Kokubu、T.Tanaka:“基于具有多个词空间的 LSI 的跨语言信息检索”NTCIR 研讨会 2 会议记录。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

MORI Tatsunori其他文献

MORI Tatsunori的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('MORI Tatsunori', 18)}}的其他基金

Study on an automated method for generating information curation map and its application for advanced information access tasks
一种自动生成信息管理地图的方法及其在高级信息访问任务中的应用研究
  • 批准号:
    16K00296
  • 财政年份:
    2016
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Study of information access methods that contribute to users' convincement
研究有助于用户信服的信息获取方法
  • 批准号:
    22500124
  • 财政年份:
    2010
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Study of multi-document summarization based on interaction with users
基于与用户交互的多文档摘要研究
  • 批准号:
    19500118
  • 财政年份:
    2007
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了