Large-Scale Web Research Testbed

大规模网络研究测试平台

基本信息

  • 批准号:
    0322975
  • 负责人:
  • 金额:
    $ 43.98万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2003
  • 资助国家:
    美国
  • 起止时间:
    2003-09-15 至 2006-08-31
  • 项目状态:
    已结题

项目摘要

This project, establishing a very large repository of current and historical Web content, supports two group research efforts: Management of the Web content and Analysis and mining of the content.The current facilities have been instrumental in examining many aspects of the World Wide Web (WWW). These aspects include experimentation toward understanding, optimally utilizing, and improving the Web. The facility has enabled researchers to try out various hypothesis and techniques for indexing and modeling WWW information. The system's highly configurable crawlers collect a large number of Web pages, storing them locally for testing novel algorithms, such as ranking, filtering, or Web linkage mapping on the collection. The current WebBase is underpowered; for example, the crawling speeds are limited by CPU performance (retrieved pages are compressed before being stored), and often by virtual memory space. Removing these two bottlenecks will enable sustaining a higher Web sample rate and covering larger areas of the Web. An upgraded testbed, developed by scaling up in size and processing speed of the current hardware facilities of an existing system called WebBase, will be used to study and evaluate different Web crawling, archive refreshing, data compression, and storage and indexing techniques. Moreover, the project investigates problems related to data extraction, semantic search, searching for non-text objects, access control, cross-temporal analysis, and mining patterns or relationships between entities. Problems to be addressed include: How to Collect ever-growing amount of Web data, and keep it up to date, Provide improved search capabilities over such data, better exploiting the semantics of data and user requests, Efficiently process high-volume real-time data streams, Organize a Web archive that captures the "history" of the Web, and Deal with new types of sources (e.g., the hidden web or chat rooms) and new types of data (e.g., images).In addition, the new WebBase facility will support teaching at various universities by providing a testbed where the students can develop new searching, indexing, and user presentation ideas. WebBase draws together faculty in the areas of data mining, security, natural language processing, and database systems; consequently, the areas enhance each other. Thus, the infrastructure will support: Experimental research in a critical area: management and exploration of Web information; Researchers at institutions that do not have sufficient facilities for large-scale Web crawling; and Teaching of courses on information retrieval and data mining.
该项目建立了当前和历史网络内容的非常大的存储库,它支持了两个小组研究工作:网络内容和分析以及内容的挖掘的管理。当前的设施在研究万维网(www)的许多方面都起着重要作用。这些方面包括实验,以理解,最佳利用和改进网络。该设施使研究人员能够尝试索引和建模www信息的各种假设和技术。该系统的高度可配置的爬网器收集了大量的网页,将它们存储在本地测试新算法,例如排名,过滤或网络链接映射集合。当前的Webbase的功率不足;例如,爬行速度受到CPU性能的限制(在存储之前已检索的页面被压缩),通常是通过虚拟内存空间。去除这两个瓶颈将使维持更高的网络样本率并涵盖网络的较大区域。升级的测试台,通过扩大名为Webbase的当前硬件设施的大小和处理速度来开发,将用于研究和评估不同的网络爬行,档案清新,数据压缩以及存储以及索引技术。此外,该项目还研究了与数据提取,语义搜索,搜索非文本对象,访问控制,跨颞分析以及实体之间的采矿模式或关系有关的问题。 Problems to be addressed include: How to Collect ever-growing amount of Web data, and keep it up to date, Provide improved search capabilities over such data, better exploiting the semantics of data and user requests, Efficiently process high-volume real-time data streams, Organize a Web archive that captures the "history" of the Web, and Deal with new types of sources (e.g., the hidden web or chat rooms) and new types of data (e.g., images).In此外,新的Webbase设施将通过提供一个测试床来支持各大学的教学,学生可以在其中开发新的搜索,索引和用户演示想法。 Webbase在数据挖掘,安全性,自然语言处理和数据库系统的领域中汇集了教师;因此,这些区域相互增强。因此,基础架构将支持:关键领域的实验研究:网络信息的管理和探索;机构的研究人员没有足够的设施来进行大规模的网络爬行;以及有关信息检索和数据挖掘课程的教学。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Hector Garcia-Molina其他文献

Maximizing remote work in flooding-based peer-to-peer systems
  • DOI:
    10.1016/j.comnet.2005.09.024
  • 发表时间:
    2006-07-14
  • 期刊:
  • 影响因子:
  • 作者:
    Qixiang Sun;Neil Daswani;Hector Garcia-Molina
  • 通讯作者:
    Hector Garcia-Molina
Assigning textual names to sets of geographic coordinates
  • DOI:
    10.1016/j.compenvurbsys.2006.02.001
  • 发表时间:
    2006-07-01
  • 期刊:
  • 影响因子:
  • 作者:
    Mor Naaman;Yee Jiun Song;Andreas Paepcke;Hector Garcia-Molina
  • 通讯作者:
    Hector Garcia-Molina

Hector Garcia-Molina的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Hector Garcia-Molina', 18)}}的其他基金

III: Large: Collaborative Research: Web Archive Cooperative
III:大型:协作研究:网络档案合作社
  • 批准号:
    1009916
  • 财政年份:
    2010
  • 资助金额:
    $ 43.98万
  • 项目类别:
    Standard Grant
EAGER: InfoCalc, a Spreadsheet Interface to Web Archive Analysis
EAGER:InfoCalc,网络档案分析的电子表格界面
  • 批准号:
    0941727
  • 财政年份:
    2009
  • 资助金额:
    $ 43.98万
  • 项目类别:
    Standard Grant
SGER, year II: A Web Sociologist's Workbench
SGER,第二年:网络社会学家的工作台
  • 批准号:
    0735129
  • 财政年份:
    2007
  • 资助金额:
    $ 43.98万
  • 项目类别:
    Standard Grant
CRI: CRD Analysis Toolbenches for Web Archives
CRI:网络档案 CRD 分析工具台
  • 批准号:
    0707464
  • 财政年份:
    2007
  • 资助金额:
    $ 43.98万
  • 项目类别:
    Standard Grant
SGER: A Web Sociologist's Workbench
SGER:网络社会学家的工作台
  • 批准号:
    0624725
  • 财政年份:
    2006
  • 资助金额:
    $ 43.98万
  • 项目类别:
    Standard Grant
SEI(BIO): Computing Support for Acquisition, Collaborative Curation, and Dissemination in Biodiversity Research
SEI(BIO):生物多样性研究中采集、协作管理和传播的计算支持
  • 批准号:
    0430448
  • 财政年份:
    2004
  • 资助金额:
    $ 43.98万
  • 项目类别:
    Continuing Grant
ITR: DataMotion - Dealing With Fast-Moving Data
ITR:DataMotion - 处理快速移动的数据
  • 批准号:
    0324431
  • 财政年份:
    2003
  • 资助金额:
    $ 43.98万
  • 项目类别:
    Continuing Grant
Trusted Peer-To-Peer Systems
值得信赖的点对点系统
  • 批准号:
    0208683
  • 财政年份:
    2002
  • 资助金额:
    $ 43.98万
  • 项目类别:
    Continuing Grant
ITR: From the Web to the Global InfoBase
ITR:从网络到全球信息库
  • 批准号:
    0085896
  • 财政年份:
    2000
  • 资助金额:
    $ 43.98万
  • 项目类别:
    Standard Grant
DLI-Phase 2: Stanford InterLib Technologies
DLI-第 2 阶段:斯坦福 InterLib Technologies
  • 批准号:
    9817799
  • 财政年份:
    1999
  • 资助金额:
    $ 43.98万
  • 项目类别:
    Cooperative Agreement

相似国自然基金

大规模网络数据中邻接矩阵特征根与特征向量的研究
  • 批准号:
    12371278
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
面向超大规模复杂虚拟网络的高精度轻量级网络遥测机制研究
  • 批准号:
    62372053
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
天基辅控的大规模星座网络化资源管控技术研究
  • 批准号:
    62371360
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
面向大规模异构边缘网络的智能低碳协同推理机制研究
  • 批准号:
    62301335
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
基于图神经网络的大规模生物知识图谱预训练方法研究
  • 批准号:
    62302100
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Big Data Training for Cancer Research
癌症研究大数据培训
  • 批准号:
    10880158
  • 财政年份:
    2023
  • 资助金额:
    $ 43.98万
  • 项目类别:
Data Analysis Center for Somatic Mosaicism Across Human Tissues Network
人体组织网络体细胞镶嵌数据分析中心
  • 批准号:
    10662721
  • 财政年份:
    2023
  • 资助金额:
    $ 43.98万
  • 项目类别:
Human Tumor Atlas Network: Data Coordinating Center Extension
人类肿瘤图谱网络:数据协调中心扩展
  • 批准号:
    10818705
  • 财政年份:
    2023
  • 资助金额:
    $ 43.98万
  • 项目类别:
iDASH Genome Privacy and Security Competition Workshop
iDASH 基因组隐私和安全竞赛研讨会
  • 批准号:
    10614292
  • 财政年份:
    2023
  • 资助金额:
    $ 43.98万
  • 项目类别:
ECOD: Large scale classification of predicted and experimental protein structures
ECOD:预测和实验蛋白质结构的大规模分类
  • 批准号:
    10659763
  • 财政年份:
    2023
  • 资助金额:
    $ 43.98万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了