SHF: Small: Developing a Highly Efficient and Accurate Approximation System for Warehouse-Scale Computers with the Sub-dataset Distribution Aware Approach

SHF:小型:采用子数据集分布感知方法为仓库规模计算机开发高效、准确的近似系统

基本信息

项目摘要

Despite the fact that today's warehouse-scale computers supply enormous data processing capacity, getting an ad-hoc query answer from a big dataset remains challenging. To attack the problem, recent years have seen one trend to exploit approximate computing to achieve faster execution on a much smaller sample of the original data by sacrificing result accuracy to a reasonable extent. Both offline based sampling approaches and online cluster sampling solutions have been gradually deployed in a real world to accelerate big data query. Educational benefits arise from broadening the experience of students from a top ranked Hispanic Ph.D. degree awarding institution and enhanced computer science/engineering curriculum activities. The online cross-institution undergraduate elective course about warehouse-scale computer and big data will be helpful in providing a re-imagined learning experience that makes optimum use of today's technologies supplemented by a broad range of media-rich study materials that students from three different universities. There are major difficulties in developing an integrated hardware and software, scalable approximation system.  The main challenge is to minimize the total size of accessed data and its associative I/O overhead subject to a given error bound. Existing popular cluster sampling with equal probability solutions do not deal well with many real-world applications following a non-uniform distribution. This research aims to tackle those challenges by investigating new sub-dataset distribution aware methods to capture sub-dataset distributions especially for non-uniform types, applying cluster sampling with unequal probability to address the inefficient sampling and large variance problem caused by non-uniform sub-dataset distribution, and taking into account the unique properties of sampling process to match with the computer hardware features, such as SSD arrays to unleash their full potential. The research will ensure future big data approximation system enables high velocity of big-data analytics to revolutionize the way that people interact with the world; and high productivity improvement of the economic impact through the efficient and effective data processing.
尽管当今的仓库规模计算机提供了巨大的数据处理能力,但从大数据集中获得临时查询答案仍然是挑战。为了攻击这个问题,近年来,通过合理地牺牲结果准确地牺牲结果来实现原始数据的较小样本,以利用近似计算来实现更快的执行趋势。基于离线的采样方法和在线群集抽样解决方案均已逐渐在现实世界中部署,以加速大数据查询。教育益处是扩大来自高级西班牙裔博士学位的学生的经验。授予机构并增强计算机科学/工程课程活动的学位。关于仓库规模计算机和大数据的在线跨机构本科课程将有助于提供重新想象的学习经验,以最佳地利用当今的技术,并由各种媒体丰富的研究材料补充,这些材料来自三个不同的大学。开发集成的硬件和软件,可扩展的近似系统存在主要困难。主要的挑战是最大程度地减少访问数据的总大小及其协会的I/O架空受到给定误差的约束。具有均等概率解决方案的现有流行群集抽样在不均匀分布后与许多现实世界应用不太吻合。这项研究旨在通过调查新的子数据库分布意识方法来捕获子数据库分布,尤其是非均匀类型的分布来应对这些挑战 潜在的。研究将确保未来的大数据近似系统使大数据分析的速度很高,以彻底改变人们与世界互动的方式。通过高效有效的数据处理来提高生产力的经济影响。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Lelantus: Fine-Granularity Copy-On-Write Operations for Secure Non-Volatile Memories
Lelantus:用于安全非易失性存储器的细粒度写时复制操作
ArchSampler: Architecture-Aware Memory Sampling Library for In-Memory Applications
ArchSampler:适用于内存应用程序的架构感知内存采样库
An I/O Efficient Distributed Approximation Framework Using Cluster Sampling
使用聚类采样的 I/O 高效分布式近似框架
Exploring Architecture, Dataflow, and Sparsity for GCN Accelerators: A Holistic Framework
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Jun Wang其他文献

An asymmetric color-image cryptosystem based on spiral phase transformation and equal modulus decomposition
基于螺旋相变和等模分解的非对称彩色图像密码系统
  • DOI:
    10.1016/j.optlastec.2020.106106
  • 发表时间:
    2020-06
  • 期刊:
  • 影响因子:
    5
  • 作者:
    Zheng Zhu;Xu-Dong Chen;Chao Wu;Jun Wang;Weixing Wang
  • 通讯作者:
    Weixing Wang
Clustering Unsynchronized Time Series Subsequences with Phase Shift Weighted Spherical k-means Algorithm
使用相移加权球形 k 均值算法对不同步时间序列子序列进行聚类
  • DOI:
    10.4304/jcp.9.5.1103-1108
  • 发表时间:
    2014-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tiantian Yang;Jun Wang
  • 通讯作者:
    Jun Wang
Curing kinetics and mechanical properties of cyanate ester/hyperbranched benzoxazine copolymers
氰酸酯/超支化苯并恶嗪共聚物的固化动力学和机械性能
  • DOI:
    10.1002/pat.5624
  • 发表时间:
    2022-01
  • 期刊:
  • 影响因子:
    3.4
  • 作者:
    Zhicheng Wang;Runjie Li;Qirui Qin;Mohamadou Al Hassan;Abdul Qadeer Dayo;Wenbin;Jun Wang
  • 通讯作者:
    Jun Wang
Roof Shale Flora of Coal Seam 6 from the Asselian (Lower Permian) Taiyuan Formation of the Wuda Coalfield, Inner Mongolia and Its Ecostratigraphic Significance
内蒙古乌达煤田阿塞尔系(下二叠统)太原组6号煤层顶板页岩植物群及其生态地层意义
  • DOI:
    10.1111/1755-6724.13061
  • 发表时间:
    2017-02
  • 期刊:
  • 影响因子:
    3.3
  • 作者:
    Wei-Ming Zhou;Gui-Jun Shi;Zhi-Yan Zhou;Jun Wang
  • 通讯作者:
    Jun Wang
Solubility of Rhodamine B in Supercritical Carbon Dioxide Fluids with or without Cosolvent
罗丹明 B 在有或没有助溶剂的超临界二氧化碳流体中的溶解度
  • DOI:
    10.4028/www.scientific.net/amr.332-334.146
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Chuan Zhao;Jun Wang;I. Tabata;T. Hori
  • 通讯作者:
    T. Hori

Jun Wang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Jun Wang', 18)}}的其他基金

SHF: Small: Taming Huge Page Problems for Memory Bulk Operations Using a Hardware/Software Co-Design Approach
SHF:小:使用硬件/软件协同设计方法解决内存批量操作的大页面问题
  • 批准号:
    2400014
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CDS&E/Collaborative Research: Data-Driven Inverse Design of Additively Manufacturable Aperiodic Architected Cellular Materials
CDS
  • 批准号:
    2245299
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Discovery Projects - Grant ID: DP210101645
发现项目 - 拨款 ID:DP210101645
  • 批准号:
    ARC : DP210101645
  • 财政年份:
    2021
  • 资助金额:
    $ 45万
  • 项目类别:
    Discovery Projects
PPoSS: Planning: Data Centric Computing for Scalable Heterogeneous Memory and Storage Systems Architecture
PPoSS:规划:可扩展异构内存和存储系统架构的以数据为中心的计算
  • 批准号:
    2028481
  • 财政年份:
    2020
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
SHF: Small: Revamping I/O Architectures Using Machine Learning Techniques on Big Compute Machines
SHF:小型:在大型计算机上使用机器学习技术改进 I/O 架构
  • 批准号:
    1907765
  • 财政年份:
    2019
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
SHF: Small: Multi-criteria optimization control for temperature constrained energy efficient data center using fuzzy decision making theory
SHF:小型:利用模糊决策理论对温度受限节能数据中心进行多准则优化控制
  • 批准号:
    1527249
  • 财政年份:
    2015
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
XPS: SDA: Collaborative Research: A Scalable and Distributed System Framework for Compute-Intensive and Data-Parallel Applications
XPS:SDA:协作研究:用于计算密集型和数据并行应用的可扩展分布式系统框架
  • 批准号:
    1337244
  • 财政年份:
    2013
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CSR: Small: DSA-Cloud: Data Semantics Aware Clouds for High Performance Analytics
CSR:小型:DSA-Cloud:用于高性能分析的数据语义感知云
  • 批准号:
    1115665
  • 财政年份:
    2011
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
SOCS: Socially Intelligent Computing to Support Citizen Science
SOCS:支持公民科学的社会智能计算
  • 批准号:
    0968470
  • 财政年份:
    2010
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CAREER: Data-Intensive HPC Analytics: A Systems Approach Through Extended Interfaces, Data Restructuring and Data-centric Scheduling
职业:数据密集型 HPC 分析:通过扩展接口、数据重组和以数据为中心的调度的系统方法
  • 批准号:
    0953946
  • 财政年份:
    2010
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant

相似国自然基金

YTHDF3调控视网膜小胶质细胞功能介导葡萄膜炎发生发展的作用机制研究
  • 批准号:
    82371045
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
PPIA/MTHFD2信号促进结直肠癌发生发展的作用机制及小分子干预研究
  • 批准号:
    82373913
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
核糖体蛋白RPL35A调节FOXO1与SIRT2乙酰化解离诱导自噬促进非小细胞肺癌发生发展及获得性耐药的机制研究
  • 批准号:
    82360461
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
下调UBE2C促进小胶质细胞自噬清除Aβ延缓阿尔茨海默病发生发展的机制研究
  • 批准号:
    82301631
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
CMPK2-STING信号轴调节小胶质细胞异常活化参与神经病理性疼痛发生发展的机制研究
  • 批准号:
    82301411
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Developing a nucleic acid force field with direct chemical perception for computational modeling of nucleic acid therapeutics
开发具有直接化学感知的核酸力场,用于核酸治疗的计算建模
  • 批准号:
    10678562
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
Developing computational methods to identify of endogenous substrates of E3 ubiquitin ligases and molecular glue degraders
开发计算方法来鉴定 E3 泛素连接酶和分子胶降解剂的内源底物
  • 批准号:
    10678199
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
Mechanisms underlying diarrhea and gut inflammation mediated by Enterotoxigenic and Enteropathogenic E. coli
产肠毒素和致病性大肠杆菌介导的腹泻和肠道炎症的机制
  • 批准号:
    10674072
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
PIWIL4 and piRNAs in RSV Infection
RSV 感染中的 PIWIL4 和 piRNA
  • 批准号:
    10667951
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
Developing multitarget enzyme inhibitors as safe and effective anti-migraine treatments
开发多靶点酶抑制剂作为安全有效的抗偏头痛治疗方法
  • 批准号:
    10714658
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了