グラフ構造解析を用いたハイパーテキストの順位づけ,クラスタリング,特徴語抽出
使用图结构分析进行超文本排序、聚类和特征词提取
基本信息
- 批准号:13780244
- 负责人:
- 金额:$ 1.34万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2001
- 资助国家:日本
- 起止时间:2001 至 2002
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究の目的は、リンク構造を持つ大量のWebページの順位づけとクラスダリング手法を構築、これを利用した検索エンジンの構築である。今年度の実績は以下のとおりである。1 テキスト部分の抽出Webページはコンテンツ以外にもマークアップのための情報や構造化のための情報を含む。前年度に、このようなファイルからコンテンツ部分のみを抜きだすアルゴリズムを開発実装した。本年度はさらに、これを拡張しWebページだけでなく、構造を持つ任意のテキストに適用可能なように拡張した。この結果は11月にドイツ・リューベックで行われた国際会議で発表した。ここまでの抽出アルゴリズムは、構造化の情報を利用していなかったが、これを利用するようにした場合の抽出精度について調べ、従来のものより高精度あることを示した。この結果は、現在国際ワークショップに投稿中である。2 Webグラフの定義拡張Webグラフとは、Webページとリンク情報の構造を表わすものである。これをキーワードやパタンも表現可能なようにいくつかの定義の拡張を行なった。さらに、前年度に収集していた上述したデータベースの実データを用いた実証実験を行った。この過程において、類似の見栄えを持つ文字列の特徴付けるアルゴリズムを開発し、グラフの作成をより高精度に行えることを確認した。この結果は、現在国際会議に投稿中である。
本研究的目的是开发一种针对大量具有链接结构的网页的排序和聚类方法,并利用该方法构建搜索引擎。今年的结果如下。 1 提取文本部分 除了内容之外,网页还包含标记和结构信息。去年,我们开发并实现了一种算法,该算法仅从此类文件中提取内容部分。今年,我们进一步扩展了这一点,使其不仅可以应用于网页,还可以应用于任何有结构的文本。这些结果于 11 月在德国吕贝克举行的国际会议上公布。到目前为止,提取算法并未使用结构化信息,但我们研究了使用结构化信息时的提取精度,结果表明其精度高于传统算法。研究结果目前正在提交给国际研讨会。 2 扩展的Web图定义 Web图表示网页的结构和链接信息。我们扩展了一些定义,以便也可以表达关键字和模式。此外,我们利用前一年收集的上述数据库的实际数据进行了演示实验。在此过程中,我们开发了一种算法来表征具有相似外观的字符串,并确认可以以更高的精度创建图形。目前研究结果正在提交给国际会议。
项目成果
期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proceedings of the 5th International conference on Discovery Science(Lecture Notes in Computer Science). 2534. 332-339 (2002)
Y.Yamada、D.Ikeda、S.Hirokawa:“多语言 Web 资源的自动包装生成”第五届发现科学国际会议论文集(计算机科学讲义)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
S.Hirokawa, D.Ikeda: "Visualization and Analysis of Web Graphs"Progress in Discovery Science(Lecture Notes in Computer Science). 2581. 616-627 (2002)
S.Hirokawa、D.Ikeda:“网络图的可视化和分析”发现科学进展(计算机科学讲义)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Yasuhiro Yamada, Daisuke Ikeda, Sachio Hirokawa: "SCOOP : A Record Extractor without Knowledge on Input"Proceedings of the 4th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence. 2226. 482-487 (2002)
Yasuhiro Yamada、Daisuke Ikeda、Sachio Hirokawa:“SCOOP:无需输入知识的记录提取器”第四届国际发现科学会议论文集,人工智能讲义。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Daisuke Ikeda, Yasuhiro Yamada, Sachio Hirokawa: "Eliminating Useless Parts in Semi-structured Documents using Alternation Counts"Proceedings of the 4th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence. 2226. 113-127
Daisuke Ikeda、Yasuhiro Yamada、Sachio Hirokawa:“使用交替计数消除半结构化文档中的无用部分”第四届国际发现科学会议论文集,人工智能讲座笔记。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
池田大輔, 山田泰寛, 廣川左千男: "Web上の多言語テキストデータからのラッパー自動生成"九州大学情報基盤センター年報. 3(予定). (2003)
Daisuke Ikeda、Yasuhiro Yamada、Sachio Hirokawa:“从网络上的多语言文本数据自动生成包装”九州大学信息技术中心年度报告 3(计划)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
池田 大輔其他文献
An Authorization Model with Privacy Protection
一种具有隐私保护的授权模型
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
中村 徹;Toru Nakamura;稲永 俊介;Shunsuke Inenaga;馬場 謙介;K. Baba;池田 大輔;Daisuke Ikeda;安浦 寛人;H. Yasuura - 通讯作者:
H. Yasuura
Global Radiation Medicine: Educational Challenges for Academia
全球放射医学:学术界的教育挑战
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
阿部 修司;新堀 淳樹;林 寛生;池田 大輔;湯元 清文;津田 敏隆;山下裕作;Shunichi Yamashita - 通讯作者:
Shunichi Yamashita
3D Collaboration Environment based on Real Space and Digital Space Symbiosis
基于真实空间与数字空间共生的3D协作环境
- DOI:
- 发表时间:
2010 - 期刊:
- 影响因子:0
- 作者:
井上 創造;堀 優子;池田 大輔;Gen Kitagata - 通讯作者:
Gen Kitagata
池田 大輔的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('池田 大輔', 18)}}的其他基金
極高エネルギー宇宙線観測のための自律トリガー可能な次世代大気蛍光望遠鏡の開発
开发能够自主触发极高能宇宙线观测的下一代大气荧光望远镜
- 批准号:
24K07073 - 财政年份:2024
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
有価証券報告書内の段落、文に対する階層的な将来見通しのトーン判定と説明可能性
确定证券报告中段落和句子的分层未来前景的语气和可解释性
- 批准号:
23K28149 - 财政年份:2024
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Hierarchical Sentiment Polarity Judgement and Explainability for Paragraphs and Sentences in Securities Reports
证券报告段落、句子的层次情感极性判断及解释
- 批准号:
23H03459 - 财政年份:2023
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Establishment of event reconstruction technique for fluorescence telescope in future huge cosmic ray observatory
未来巨型宇宙线观测站荧光望远镜事件重建技术的建立
- 批准号:
21K03605 - 财政年份:2021
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
超高エネルギー宇宙線におけるエネルギースペクトルの精密測定とその起源の解明
超高能宇宙线能谱的精确测量并阐明其起源
- 批准号:
08J10092 - 财政年份:2008
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
Development of a platform for automatic data science by using text information in metadata
利用元数据中的文本信息开发自动数据科学平台
- 批准号:
22K21288 - 财政年份:2022
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Research Activity Start-up
Pattern Extraction by Independent Component Analysis and Multi-layer Sparse Network
独立成分分析和多层稀疏网络的模式提取
- 批准号:
21K12036 - 财政年份:2021
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
加齢に伴う衰えを察知するための会話分析手法とその評価
检测年龄相关衰退的对话分析方法及其评估
- 批准号:
19K04934 - 财政年份:2019
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Estimation of Learning Activity and Learning Performance of Junior High School Student
初中生学习活动及学习成绩评价
- 批准号:
18K18656 - 财政年份:2018
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
Research on AI's reading comprehension of multimedia data for improving language proficiency
AI多媒体数据阅读理解提高语言能力研究
- 批准号:
18K11557 - 财政年份:2018
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)