CSR: Small: Large-Scale Web Crawling and Spam Avoidance in Search-Engine Applications
CSR:小:搜索引擎应用中的大规模网络爬行和垃圾邮件避免
基本信息
- 批准号:1017766
- 负责人:
- 金额:$ 40.01万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2010
- 资助国家:美国
- 起止时间:2010-09-01 至 2015-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Search engines and various data-mining applications commonly rely on web crawlers to navigate the web, discover valuable content, and keep it fresh. However, the enormous volume of available information and sophisticated spam techniques commonly used to deceive search engines present significant challenges in web crawling, especially in non-commercial applications such as research. The first part of this project designs efficient real-time graph-manipulation algorithms and builds a high-performance distributed web-crawler architecture that seamlessly couples the various components of Internet-scale networking, information retrieval, and graph theory. The second part creates probabilistic techniques for quick estimation of domain reputation and explores various ranking techniques to achieve better robustness against spam. The third part designs advanced budgeting mechanisms to control the crawl rate of different parts of the web at multiple levels of granularity. The project is expected to engage students at Texas A&M in research-intensive education in cross-disciplinary fields (such as data-intensive computing, networking, graph theory, distributed systems, parallel architectures, and modeling), broaden integration of web research into classroom teaching, attract undergraduate students to REU, extend participation of minority groups in engineering, stimulate collaboration among students and sharing of ideas, and permit web-related research at other institutions through publicly shared outcomes of our work.
搜索引擎和各种数据挖掘应用程序通常依赖网络爬网来浏览网络,发现有价值的内容并保持新鲜。但是,通常用于欺骗搜索引擎的大量可用信息和复杂的垃圾邮件技术在网络爬行中遇到了重大挑战,尤其是在非商业应用程序(例如研究)中。该项目的第一部分设计有效的实时图形操作算法,并构建了高性能分布式的Web-Crawler架构,该体系结构无缝地构造了Internet级网络,信息检索和图形论的各个组件。第二部分创建了概率技术,以快速估算领域的声誉,并探索各种排名技术,以实现对垃圾邮件的更好鲁棒性。第三部分设计了先进的预算机制,以控制粒度多个层次的网络不同部分的爬网速率。预计该项目将吸引得克萨斯州A&M的学生在跨学科领域的研究密集型教育(例如数据密集型计算,网络,网络,图形理论,分布式系统,平行体系结构和建模),将网络研究扩展到课堂教学中,吸引本科生在reu中扩展课堂教学,扩展少数群体的参与,并促进其他群体的参与,并在少数群体中进行了研究,并在少数派中进行了研究,并在研究过程中进行了研究,并促进了少数派的参与,并促进了少数派的参与,并在研究过程中进行了促进,并在研究中进行了研究,并在少数群体中进行了研究,并将其参与研究,并促进了少数派的参与,并将其参与培训,并将其与众不同。我们工作的共同成果。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Dmitri Loguinov其他文献
Dmitri Loguinov的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Dmitri Loguinov', 18)}}的其他基金
CSR: Small: Algorithms and Abstractions for Efficient Virtual-Memory Streaming and Big-Data Computing
CSR:小:高效虚拟内存流和大数据计算的算法和抽象
- 批准号:
1717982 - 财政年份:2017
- 资助金额:
$ 40.01万 - 项目类别:
Standard Grant
CSR: Small: Yesterday's News: Theory of Staleness under Data Churn
CSR:小:昨天的新闻:数据搅动下的陈旧理论
- 批准号:
1319984 - 财政年份:2013
- 资助金额:
$ 40.01万 - 项目类别:
Standard Grant
CSR -- SMA: Bridging Analytical and Empirical Understanding of Churn in Decentralized P2P Systems
CSR——SMA:桥接去中心化 P2P 系统中流失的分析和实证理解
- 批准号:
0720571 - 财政年份:2007
- 资助金额:
$ 40.01万 - 项目类别:
Continuing Grant
NeTS-NBD: Distributed Congestion Control for Heterogeneous Networks
NeTS-NBD:异构网络的分布式拥塞控制
- 批准号:
0519442 - 财政年份:2005
- 资助金额:
$ 40.01万 - 项目类别:
Standard Grant
NeTS - NR: Topology Models for Decentralized Random Graphs
NeTS - NR:去中心化随机图的拓扑模型
- 批准号:
0434940 - 财政年份:2004
- 资助金额:
$ 40.01万 - 项目类别:
Standard Grant
Optimal-Diameter Routing and Error Resilience in Peer-to-Peer Networks
对等网络中的最佳直径路由和错误恢复能力
- 批准号:
0306246 - 财政年份:2003
- 资助金额:
$ 40.01万 - 项目类别:
Standard Grant
ITR: Efficient Self-Organizing Content Distribution Network for Scalable Video Streaming Services
ITR:用于可扩展视频流服务的高效自组织内容分发网络
- 批准号:
0312461 - 财政年份:2003
- 资助金额:
$ 40.01万 - 项目类别:
Continuing Grant
相似国自然基金
员工算法规避行为的内涵结构、量表开发及多层次影响机制:基于大(小)数据研究方法整合视角
- 批准号:72372021
- 批准年份:2023
- 资助金额:40 万元
- 项目类别:面上项目
大压电有机小分子晶体的设计合成和性能研究
- 批准号:22375082
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
新型小分子化合物WK692靶向BCL6-BTB结构域抑制弥漫大B细胞淋巴瘤的功能与机理研究
- 批准号:82202897
- 批准年份:2022
- 资助金额:30.00 万元
- 项目类别:青年科学基金项目
两相湍流中离散相小尺度过程大涡模拟的亚格子模型构建
- 批准号:
- 批准年份:2022
- 资助金额:55 万元
- 项目类别:面上项目
“以大代小”风电场多尺度混合湍流结构的演化与影响
- 批准号:92252103
- 批准年份:2022
- 资助金额:100.00 万元
- 项目类别:重大研究计划
相似海外基金
CSR: Small: Multi-FPGA System for Real-time Fraud Detection with Large-scale Dynamic Graphs
CSR:小型:利用大规模动态图进行实时欺诈检测的多 FPGA 系统
- 批准号:
2317251 - 财政年份:2024
- 资助金额:
$ 40.01万 - 项目类别:
Standard Grant
CSR: Small: Data Parallel Frameworks for Large-scale Machine Learning through Sync-on-the-Fly
CSR:小型:通过即时同步实现大规模机器学习的数据并行框架
- 批准号:
1815412 - 财政年份:2018
- 资助金额:
$ 40.01万 - 项目类别:
Standard Grant
CSR: Small: Cost Effective, High Performance Solutions Using Erasure Codes for Big Data Management in Large Data Centers
CSR:小型:在大型数据中心使用纠删码进行大数据管理的经济高效、高性能解决方案
- 批准号:
1700719 - 财政年份:2016
- 资助金额:
$ 40.01万 - 项目类别:
Standard Grant
CSR: Small: Automatic Storage and Network Contention Management for Large-scale High-performance Computing Systems
CSR:小型:大规模高性能计算系统的自动存储和网络争用管理
- 批准号:
1528179 - 财政年份:2015
- 资助金额:
$ 40.01万 - 项目类别:
Standard Grant
CSR: Small: Diagnosing Performance and Correctness Errors in Parallel Applications at Large Scales
CSR:小:诊断大规模并行应用程序中的性能和正确性错误
- 批准号:
1527262 - 财政年份:2015
- 资助金额:
$ 40.01万 - 项目类别:
Standard Grant