AF: Small: Efficient Algorithms for Querying Noisy Distributed/Streaming Datasets

AF:小:查询嘈杂分布式/流数据集的高效算法

基本信息

  • 批准号:
    1525024
  • 负责人:
  • 金额:
    $ 44.43万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2015
  • 资助国家:
    美国
  • 起止时间:
    2015-06-15 至 2019-05-31
  • 项目状态:
    已结题

项目摘要

This project aims to study the design of efficient query algorithms for noisy datasets in distributed and streaming applications. Noisy data is universal in today's world. Imprecise and varying references to the same real-world entities are ubiquitous in scientific and commercial databases. This noise poses significant obstructions to accurate data analytics. As an example of "noisy data," consider YouTube videos. YouTube tracks the views of individual videos. However, there are frequently many similar versions of the same event and answering a basic question such as "How many people viewed this event?" is challenging using current techniques. This project will provide new techniques and insights to combat the noisy nature of large datasets, and hence will enhance our ability to process the ever-increasing quantity of business and scientific data. The products of this project will be integrated into a trilogy of graduate and undergraduate courses on algorithms, databases, and data mining. The PI will disseminate research outcomes by giving talks at conferences/workshops, universities, industrial labs, as well as online media.More technically, this project tries to answer the following question: can we run distributed and streaming algorithms directly on the noisy datasets, resolve the noise "on the fly", and retain communication and space efficiency compared with the noise-free setting? The PI plans to study statistical, relational and graph problems. This project has the potential to impact a wide range of active research areas in theoretical computer science, including distributed and streaming algorithms, group testing, compressed sensing, communication complexity, clustering, and locality sensitive hashing.
该项目旨在研究分布式和流应用程序中噪声数据集的高效查询算法的设计。 噪声数据在当今世界是普遍存在的。对同一现实世界实体的不精确和不同的引用在科学和商业数据库中随处可见。 这种噪音对准确的数据分析造成了重大障碍。 作为“噪声数据”的示例,请考虑 YouTube 视频。 YouTube 会跟踪各个视频的观看次数。然而,同一事件经常有许多相似的版本,并回答诸如“有多少人观看了此事件?”之类的基本问题。使用当前技术具有挑战性。 该项目将提供新技术和见解来应对大型数据集的噪声性质,从而增强我们处理数量不断增加的商业和科学数据的能力。该项目的产品将被整合到关于算法、数据库和数据挖掘的研究生和本科生课程三部曲中。 PI 将通过在会议/研讨会、大学、工业实验室以及在线媒体上发表演讲来传播研究成果。从技术上讲,该项目试图回答以下问题:我们能否直接在嘈杂的数据集上运行分布式和流式算法,解决“动态”噪音,并与无噪音设置相比保持通信和空间效率? PI 计划研究统计、关系和图形问题。 该项目有可能影响理论计算机科学的广泛活跃研究领域,包括分布式和流算法、组测试、压缩感知、通信复杂性、集群和局部敏感哈希。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Communication-Efficient Distributed Skyline Computation
通信高效的分布式 Skyline 计算
Smooth q-Gram, and Its Applications to Detection of Overlaps among Long, Error-Prone Sequencing Reads
平滑 q-Gram 及其在长、易错测序读取之间重叠检测中的应用
A Practical Algorithm for Distributed Clustering and Outlier Detection
分布式聚类和异常值检测的实用算法
  • DOI:
  • 发表时间:
    2018-05-24
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiecao Chen;Erfan Sadeqi Azer;Qin Zhang
  • 通讯作者:
    Qin Zhang
EmbedJoin: Efficient Edit Similarity Joins via Embeddings
EmbedJoin:通过嵌入进行高效编辑相似性连接
Distributed Statistical Estimation of Matrix Products with Applications
矩阵乘积的分布式统计估计及其应用
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Qin Zhang其他文献

FUZZY EXPERT SYSTEMS: A PROTOTYPE FOR CONTROL of CORN BREAKAGE DURING DRYING
模糊专家系统:干燥过程中控制玉米破损的原型
  • DOI:
    10.1111/j.1745-4530.1990.tb00054.x
  • 发表时间:
    1990-10-01
  • 期刊:
  • 影响因子:
    3
  • 作者:
    Qin Zhang;J. Litchfield
  • 通讯作者:
    J. Litchfield
Numerical simulation and safety evaluation of multi-source leakage of buried product oil pipeline
埋地成品油管道多源泄漏数值模拟及安全评价
Research on the Influence of New Media on Local College Students’ Learning and Countermeasures
新媒体对地方大学生学习的影响及对策研究
  • DOI:
    10.12677/ces.2024.123126
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Qin Zhang;Jun Zhang;Jie Chen;Qinglan Wang;Li Xu
  • 通讯作者:
    Li Xu
Role of immune tolerance in BALB/c mice with anaphylactic shock after Echinococcus granulosus infection
细粒棘球蚴感染后过敏性休克 BALB/c 小鼠免疫耐受的作用
  • DOI:
    10.1007/s12026-015-8741-2
  • 发表时间:
    2015-11-24
  • 期刊:
  • 影响因子:
    4.4
  • 作者:
    Qin Zhang;Jian‐rong Ye;Haining Ma;Jianjiang Wu;T. Jiang;Hong Zheng
  • 通讯作者:
    Hong Zheng
Content-Based Design Patent Image Retrieval Using Structured Features and Multiple Feature Fusion
使用结构化特征和多特征融合的基于内容的外观设计专利图像检索

Qin Zhang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Qin Zhang', 18)}}的其他基金

Collaborative Research: AF: Small: Parallel Reinforcement Learning with Communication and Adaptivity Constraints
协作研究:AF:小型:具有通信和适应性约束的并行强化学习
  • 批准号:
    2006591
  • 财政年份:
    2020
  • 资助金额:
    $ 44.43万
  • 项目类别:
    Standard Grant
CAREER:Foundation of Communication-Efficient Distributed Computation and Monitoring
职业:通信高效的分布式计算和监控的基础
  • 批准号:
    1844234
  • 财政年份:
    2019
  • 资助金额:
    $ 44.43万
  • 项目类别:
    Continuing Grant
BIGDATA: Collaborative Research: F: Efficient Distributed Computation of Large-Scale Graph Problems in Epidemiology and Contagion Dynamics
BIGDATA:协作研究:F:流行病学和传染动力学中大规模图问题的高效分布式计算
  • 批准号:
    1633215
  • 财政年份:
    2016
  • 资助金额:
    $ 44.43万
  • 项目类别:
    Standard Grant
AF: Small: Redundancy exploiting algorithms for high throughput genomics
AF:小:利用冗余算法实现高通量基因组学
  • 批准号:
    1619081
  • 财政年份:
    2016
  • 资助金额:
    $ 44.43万
  • 项目类别:
    Standard Grant

相似国自然基金

基于亲和超滤高效筛选苗药榜看雾中治疗类风湿性关节炎的小分子TNF-α抑制剂
  • 批准号:
    82360834
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
海洋节菱孢菌中靶向RORγ-DLL3信号轴抗小细胞肺癌的Arthpyrone类吡啶酮生物碱的高效发掘及作用机制研究
  • 批准号:
    42376124
  • 批准年份:
    2023
  • 资助金额:
    51 万元
  • 项目类别:
    面上项目
小分子高效诱导人成纤维细胞重编程为功能肝细胞的研究
  • 批准号:
    32300610
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
太阳光致异构的偶氮小分子的开发及其在高效太阳能储热中的应用
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于高效纳米酶的细胞外囊泡内小分子代谢物的即时检测研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: AF: Small: Efficient Algorithms for Optimal Transport in Geometric Settings
合作研究:AF:小:几何设置中最佳传输的高效算法
  • 批准号:
    2223871
  • 财政年份:
    2022
  • 资助金额:
    $ 44.43万
  • 项目类别:
    Standard Grant
Collaborative Research: NSF-AoF: CIF: AF: Small: Energy-Efficient THz Communications Across Massive Dimensions
合作研究:NSF-AoF:CIF:AF:小型:大尺寸的节能太赫兹通信
  • 批准号:
    2225575
  • 财政年份:
    2022
  • 资助金额:
    $ 44.43万
  • 项目类别:
    Standard Grant
Collaborative Research: NSF-AoF: CIF: AF: Small: Energy-Efficient THz Communications Across Massive Dimensions
合作研究:NSF-AoF:CIF:AF:小型:大尺寸的节能太赫兹通信
  • 批准号:
    2225576
  • 财政年份:
    2022
  • 资助金额:
    $ 44.43万
  • 项目类别:
    Standard Grant
Collaborative Research: AF: Small: Efficient Algorithms for Optimal Transport in Geometric Settings
合作研究:AF:小:几何设置中最佳传输的高效算法
  • 批准号:
    2223870
  • 财政年份:
    2022
  • 资助金额:
    $ 44.43万
  • 项目类别:
    Standard Grant
Collaborative Research: AF: Small: Efficient Massively Parallel Algorithms
合作研究:AF:小型:高效大规模并行算法
  • 批准号:
    2218677
  • 财政年份:
    2022
  • 资助金额:
    $ 44.43万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了