高精度XML文書検索システムの問合せ処理高速化に関する研究

高精度XML文档检索系统查询加速处理研究

基本信息

  • 批准号:
    16700103
  • 负责人:
  • 金额:
    $ 2.3万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2005
  • 项目状态:
    已结题

项目摘要

本研究では,XML文書に対し利用者が問合せキーワードを入力し,そのキーワードに合致するXML部分文書を得る検索のことを「XML検索」と呼んでいる.検索対象がXML文書ではなくその部分文書となっていることで,検索対象となる部分文書数が爆発的に増加するため,検索精度の低下だけではなく検索速度の低下もXML検索における問題点となっている.この問題の解決には,キーワード検索の特質を理解し,明らかに検索結果となりえない,すなわち検索の際に不要となるXML部分文書(以下,不要部分文書と呼ぶ)を検索対象から外し,検索対象部分文書数を削減することが重要だとされており,この不要部分文書の除去によって検索速度および検索精度の改善が期待されている.従来から行われているこの種の研究では,不要部分文書の決定は人手によって行われてきた.例えば,<author>Kenji Hatano</author>のような部分文書は,ブーリアン検索では有用な検索結果になりえるが,キーワード検索の検索結果としては情報が不十分であるため,Kenji Hatanoが何のauthorなのかを理解できるようその上位の部分文書を検索対象とするといった具合である.しかし,このような作業を人手で行うのは重労働であるため,その作業の自動化が求められてきた.本年度の研究実績は,昨年度の研究成果である不要部分文書の自動決定するための統計量をリレーショナルデータベースに格納し,かつそのリレーショナルデータベースで検索処理ができるよう,問合せ変換器を構築したことである.また,不要部分文書の決定に統計量だけではなく不要部分文書だと明確なものはあらかじめリレーショナルデータベースに格納しない手順を追加した.その結果,本年度は検索対象XMLデータが昨年度と比較して約200MB増加したにも関わらず,検索速度,検索速度ともにほとんど変化しなかった.このように,本提案は実運用に耐えうる使用となっており,未来のWeb検索エンジン実現のための要素技術として,有用なものであるということができる.今後の課題は,問合せ処理時の最適化処理によって更なる高速化が期待できるため,今年度利用した統計情報をどのように検索システム内に格納するかなど,既存のRDBを利用した問合せ最適化について考える予定である.
在本研究中,用户在XML文档中输入查询关键字并获得与关键字匹配的XML部分文档的搜索被称为“XML搜索”。搜索目标不是XML文档,而是部分文档。 ,要搜索的部分文档数量呈爆炸性增长,导致XML搜索出现不仅搜索精度下降而且搜索速度下降的问题。为了解决这个问题,关键字搜索的特点我们知道,通过排除明显不能成为搜索结果的XML部分文档,即搜索过程中不需要的部分文档(以下称为不必要的部分文档),减少要搜索的部分文档的数量是很重要的。预计删除不必要的文档将提高搜索速度和准确性。在此类类型的常规研究中,不必要的文档都是手动确定的。例如,<作者>Kenji像 Hatano</author> 这样的部分文档对于布尔搜索来说可以是有用的搜索结果,但是它们没有为关键字搜索提供足够的信息,所以 Kenji为了让波多野了解他是什么样的作者,搜索目标是更高级别的部分文档。但是,手动执行此类工作是很困难的,因此需要将这项工作自动化。今年的研究成果包括。自动删除不必要的文件,这是去年研究的结果。我们构建了一个查询转换器来存储关系数据库中的确定统计信息,并在该关系数据库中执行搜索处理。此外,我们不仅使用统计信息来确定不必要的部分文档,而且还使用不必要的部分文档。明确的答案是创建。预先建立一个关系数据库。结果,尽管要搜索的XML数据比去年增加了约200MB,但搜索速度或搜索速度几乎没有变化。该提案已用于承受实际操作,并将用于。实现未来的网络搜索引擎。可以说,这项技术作为搜索系统的基础技术是有用的。未来的问题是如何在搜索系统中使用今年使用的统计信息,通过查询处理过程中的优化处理,有望进一步提高速度。我们计划考虑使用现有的RDB进行查询优化,例如是否将它们存储在.

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
キーワードに基づいた部分文書検索における解答部分文書が持つ性質の分析
基于关键词的部分文档搜索中答案部分文档的属性分析
Analyzing the Properties of XML Fragments Decomposed from the INEX Document Collection
分析从 INEX 文档集合分解的 XML 片段的属性
類似度計算の効率化によるXML検索の高速化について
关于通过提高相似度计算效率来加速XML搜索
キーワードを利用したXML文書検索
使用关键字搜索 XML 文档
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

波多野 賢治其他文献

XML情報検索のための動的な索引管理手法の一提案
一种用于XML信息检索的动态索引管理方法的建议
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    欅 惇志;宮崎 純;波多野 賢治;山本 豪志朗;加藤 博一
  • 通讯作者:
    加藤 博一
The Economic and Political Preferences of Japanese Homemakers
日本家庭主妇的经济和政治偏好
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    木村 優介;駒水 孝裕 ;波多野 賢治;Tomoko Matsumoto; Kenneth McElwain; Kensuke Okada; Junko Kato
  • 通讯作者:
    Tomoko Matsumoto; Kenneth McElwain; Kensuke Okada; Junko Kato
The synchronous vs. asynchronous NoC routers: an apple-to-apple comparison between synchronous and transition signaling asynchronous designs
同步与异步 NoC 路由器:同步和转换信令异步设计之间的逐个比较
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    久米 出;中村 匡秀;波多野 賢治;柴山 悦哉;Masashi Imai; Thiem Van Chu; Kenji Kise; Tomohiro Yoneda
  • 通讯作者:
    Masashi Imai; Thiem Van Chu; Kenji Kise; Tomohiro Yoneda
固有表現タグおよびPOSタグによる交換制約付きデータ拡張手法
使用命名实体标签和POS标签的具有交换约束的数据扩展方法
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    寺本 優香;駒水 孝裕 ;波多野 賢治
  • 通讯作者:
    波多野 賢治
データの複雑性を考慮した不均衡データに対するリサンプリング手法
考虑数据复杂度的不平衡数据重采样方法
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    笹田 大翔;馬場 睦也;木村 優介;波多野 賢治
  • 通讯作者:
    波多野 賢治

波多野 賢治的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('波多野 賢治', 18)}}的其他基金

異種データセット間におけるエンティティ同定とその活用に関する研究
异构数据集中的实体识别及其利用研究
  • 批准号:
    23K28383
  • 财政年份:
    2024
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
A Study on Entity Identification and Utilization in Cross-Dataset
跨数据集中的实体识别与利用研究
  • 批准号:
    23H03694
  • 财政年份:
    2023
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
部分着目型XML情報検索システムの開発とその利用に関する研究
偏焦点XML信息检索系统的开发与使用研究
  • 批准号:
    14780325
  • 财政年份:
    2002
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
XMLで表現されるマルチメディアデータの効果的検索法に関する研究
XML表达的多媒体数据的有效搜索方法研究
  • 批准号:
    12780309
  • 财政年份:
    2000
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

Bi-directional retrieval of speech and image by indexing both speech and image data.
通过索引语音和图像数据来双向检索语音和图像。
  • 批准号:
    24500124
  • 财政年份:
    2012
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
高精度かつ高速なXML検索に関する研究
高精度、高速XML搜索研究
  • 批准号:
    12J00780
  • 财政年份:
    2012
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Designing an ultra-hispeed search engine for big data of spoken documents
语音文档大数据超高速搜索引擎的设计
  • 批准号:
    22300060
  • 财政年份:
    2010
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
適応的な高精度高速XML検索に関する研究
自适应高精度高速XML搜索研究
  • 批准号:
    18049036
  • 财政年份:
    2006
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了