部分着目型XML情報検索システムの開発とその利用に関する研究
偏焦点XML信息检索系统的开发与使用研究
基本信息
- 批准号:14780325
- 负责人:
- 金额:$ 2.18万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2002
- 资助国家:日本
- 起止时间:2002 至 2003
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Web検索エンジンの検索対象はWebページであり,システムがページから抽出した出現単語を基に転置ファイルを生成し,それを利用することで検索作業を行っている.Web検索エンジンはWebページの特長であるリンク構造を考慮して単語の重み付けを行っているため,Webページを検索するという点では有用であるが,検索対象をWebページとしている以上,基本的にはページに出現している単語に着目しているため,Webページ中に利用者が検索要求として利用したキーワードが含まれていれば,その検索要求に対するWebページの類似度が高くなり,結果的に検索結果として返されてしまう.つまり,利用者が検索結果を閲覧する際にWebページのどの部分が検索要求を満たしているのか非常にわかりにくく,さらに検索要求を満たす部分を改めて探さなければならないという問題点が存在する.そのような問題点を解決するために,本研究では二年間に渡りXML文書の持つ単語の統計量を利用して,検索結果から利用者に返される回答として相応しいXML部分文書を決定するアルゴリズムを提案し,そのアルゴリズムを実装した部分着目型XML情報検索システムの構築を行った.また,従来のTF-IDFによる単語の重み付けを改良し,構造化文書に相応しい新しい重み付け法の提案を行った.本年度の研究成果には,XML文書から抽出されるXML部分文書のうち,統計的に安定している(特異でない)XML部分文書だけを索引付けしたところ,索引付けされたXML部分文書数が提案手法を採用しない場合に比べ約12%に削減され,それに伴い,索引生成時間が約5倍,検索時間が約3倍高速となったのに加え,平均適合率も3%改善される結果となった.以上の結果より,提案手法によって,検索システムの処理速度および検索精度の両方が改善されることが判明した.
网络搜索引擎的搜索目标是网页,系统根据页面中出现的单词生成转置文件,并使用它进行搜索。它对搜索网页很有用,因为它对单词进行加权。考虑到链接结构,但由于搜索目标是网页,因此它基本上重点关注页面上出现的单词。因此,如果某个网页包含用户作为搜索请求使用的关键字,则该网页与该搜索请求的相似度很高,并且在查看搜索结果时将其作为搜索结果返回。要知道网页的哪一部分满足了搜索请求,存在用户必须重新搜索满足搜索请求的部分的问题。这样的问题需要解决在这项研究中,我们提出了一种算法,使用两年来 XML 文档的单词统计来确定适合作为答案的 XML 部分文档,从搜索结果中返回给用户,并重点关注该部分,另外,我们利用TF-IDF改进了传统的词加权方法,提出了一种适合结构化文档的新的加权方法。今年的研究成果包括XML提取。当仅对统计稳定(非奇异)的 XML 部分文档进行索引时,与未使用所提出的方法时相比,索引的 XML 部分文档的数量减少到约 12%。因此,索引生成时间变为约 5 倍。更快,搜索时间变快了约3倍,平均准确率提高了3%。从上述结果来看,所提出的方法表明搜索系统的处理速度和搜索精度都得到了提高。
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Kenji Hatano et al.: "An Evaluation of INEX 2003 Relevance Assessments"INEX 2003 Workshop Proceedings. 25-32 (2003)
Kenji Hatano 等人:“INEX 2003 相关性评估的评估”INEX 2003 研讨会论文集。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
波多野 賢治其他文献
XML情報検索のための動的な索引管理手法の一提案
一种用于XML信息检索的动态索引管理方法的建议
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
欅 惇志;宮崎 純;波多野 賢治;山本 豪志朗;加藤 博一 - 通讯作者:
加藤 博一
The Economic and Political Preferences of Japanese Homemakers
日本家庭主妇的经济和政治偏好
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
木村 優介;駒水 孝裕 ;波多野 賢治;Tomoko Matsumoto; Kenneth McElwain; Kensuke Okada; Junko Kato - 通讯作者:
Tomoko Matsumoto; Kenneth McElwain; Kensuke Okada; Junko Kato
The synchronous vs. asynchronous NoC routers: an apple-to-apple comparison between synchronous and transition signaling asynchronous designs
同步与异步 NoC 路由器:同步和转换信令异步设计之间的逐个比较
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
久米 出;中村 匡秀;波多野 賢治;柴山 悦哉;Masashi Imai; Thiem Van Chu; Kenji Kise; Tomohiro Yoneda - 通讯作者:
Masashi Imai; Thiem Van Chu; Kenji Kise; Tomohiro Yoneda
固有表現タグおよびPOSタグによる交換制約付きデータ拡張手法
使用命名实体标签和POS标签的具有交换约束的数据扩展方法
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
寺本 優香;駒水 孝裕 ;波多野 賢治 - 通讯作者:
波多野 賢治
データの複雑性を考慮した不均衡データに対するリサンプリング手法
考虑数据复杂度的不平衡数据重采样方法
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
笹田 大翔;馬場 睦也;木村 優介;波多野 賢治 - 通讯作者:
波多野 賢治
波多野 賢治的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('波多野 賢治', 18)}}的其他基金
異種データセット間におけるエンティティ同定とその活用に関する研究
异构数据集中的实体识别及其利用研究
- 批准号:
23K28383 - 财政年份:2024
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
A Study on Entity Identification and Utilization in Cross-Dataset
跨数据集中的实体识别与利用研究
- 批准号:
23H03694 - 财政年份:2023
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
高精度XML文書検索システムの問合せ処理高速化に関する研究
高精度XML文档检索系统查询加速处理研究
- 批准号:
16700103 - 财政年份:2004
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
XMLで表現されるマルチメディアデータの効果的検索法に関する研究
XML表达的多媒体数据的有效搜索方法研究
- 批准号:
12780309 - 财政年份:2000
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似国自然基金
基于集成学习的分布式XML数据流的挖掘模型与概念漂移挖掘方法研究
- 批准号:61773415
- 批准年份:2017
- 资助金额:64.0 万元
- 项目类别:面上项目
海量不确定XML数据查询关键技术研究
- 批准号:61602130
- 批准年份:2016
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
高扩展性XML关键字查询处理技术
- 批准号:61572421
- 批准年份:2015
- 资助金额:66.0 万元
- 项目类别:面上项目
面向时空应用的大规模复杂模糊时空XML数据管理关键技术研究
- 批准号:61402087
- 批准年份:2014
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
确定性表达式及其子类的理论问题与工具研究
- 批准号:61472405
- 批准年份:2014
- 资助金额:80.0 万元
- 项目类别:面上项目
相似海外基金
Word文書のXML解析と機械学習を用いた授業課題レポート作成者の識別
使用 Word 文档的 XML 分析和机器学习识别课堂作业报告创建者
- 批准号:
23K02723 - 财政年份:2023
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
『カダム全集』所収『阿毘達磨集論』注釈群のXML電子テキスト構築
噶当全集《阿提达磨文集》注释XML电子文本的构建
- 批准号:
21H04339 - 财政年份:2021
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
Study of Language Layers in Vedic Literature for the Development of a Program for Age Estimation
研究吠陀文学中的语言层以开发年龄估计程序
- 批准号:
21KK0004 - 财政年份:2021
- 资助金额:
$ 2.18万 - 项目类别:
Fund for the Promotion of Joint International Research (Fostering Joint International Research (B))
アカデミック・ライティング研究のための日本語学術論文コーパス構築
建立用于学术写作研究的日本学术论文语料库
- 批准号:
21K00554 - 财政年份:2021
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
WebAgent:省労力型e-learningシステムの統合開発研究
WebAgent:省力电子学习系统集成开发研究
- 批准号:
20K12092 - 财政年份:2020
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (C)