Efficient log data compression and analytics system

高效的日志数据压缩和分析系统

基本信息

  • 批准号:
    570524-2021
  • 负责人:
  • 金额:
    $ 17.46万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Alliance Grants
  • 财政年份:
    2022
  • 资助国家:
    加拿大
  • 起止时间:
    2022-01-01 至 2023-12-31
  • 项目状态:
    已结题

项目摘要

The pandemic has brought a furious growth of computer log data, i.e., the runtime data generated by computer systems. This is catalyzed by two trends. First, during the pandemic many activities are moved to online, hence there is an unprecedented growth of software services, which, in turn, generate an unprecedented amount of log data. In addition, software companies are increasingly relying on analysis of data to make data-driven decisions. They build large scale big data analytics systems that run hundreds of jobs per day. These data analytics systems end up generating even more log data. As a result, it is common for a company to generate Petabytes of log data per day, with 50% - 100% year-over-year growth.This unprecedented amount of log data creates a number of new challenges. First, conventional log analytics systems no longer scale to such large data sizes. In addition, managing such large data is extremely costly at every level, from storage cost, to network bandwidth, and to the cost of compute resources. This research proposes a novel system called CLP (Compressed Log Processor). CLP compresses the logs to unprecedented compression ratio, and more importantly, it allows one to search the compressed logs without decompression. The success of CLP will reduce the cost of log management and storage by over 40x, saving internet companies hundreds of millions of dollars per year. More importantly, it enables users to quickly search through Petabytes of logs efficiently, something that was not possible. The partnership with Uber will make CLP production-ready, and establish Canada as a leader in this emerging area of scalable and efficient log management. It will also result in increased employments of skilled software engineers in Canada, significant enhancements of the competitiveness of Canada's data center technology, and reduced emission of Canadian data centers.
疫情带来了计算机日志数据(即计算机系统生成的运行时数据)的急剧增长。这是由两种趋势推动的。首先,疫情期间许多活动都转移到线上,因此软件服务出现了前所未有的增长,进而产生了前所未有的日志数据量。此外,软件公司越来越依赖数据分析来做出数据驱动的决策。他们构建了每天运行数百个作业的大规模大数据分析系统。这些数据分析系统最终会生成更多的日志数据。因此,公司每天生成 PB 级日志数据是很常见的,并且同比增长 50% - 100%。这种前所未有的日志数据量带来了许多新的挑战。首先,传统的日志分析系统不再能够扩展到如此大的数据量。此外,管理如此大的数据在各个层面上都极其昂贵,从存储成本到网络带宽,再到计算资源成本。这项研究提出了一种称为 CLP(压缩日志处理器)的新颖系统。 CLP将日志压缩到前所未有的压缩率,更重要的是,它允许人们在不解压的情况下搜索压缩日志。 CLP的成功将使日志管理和存储的成本降低40倍以上,每年为互联网公司节省数亿美元。更重要的是,它使用户能够快速有效地搜索 PB 级日志,这是不可能的。与 Uber 的合作将使 CLP 做好生产准备,并使加拿大成为可扩展和高效日志管理这一新兴领域的领导者。它还将增加加拿大熟练软件工程师的就业机会,显着增强加拿大数据中心技术的竞争力,并减少加拿大数据中心的排放。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Yuan, DingD其他文献

Yuan, DingD的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

面向大数据系统日志异常检测模型的关键技术研究
  • 批准号:
    62376023
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于注意力机制的高鲁棒性大数据平台日志异常检测深度模型研究
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    24 万元
  • 项目类别:
    青年科学基金项目
基于扶贫日志的彝语语音数据自动标注技术研究
  • 批准号:
    62066023
  • 批准年份:
    2020
  • 资助金额:
    36 万元
  • 项目类别:
    地区科学基金项目
面向多语法语义日志的数据中心网络设备异常检测机制研究
  • 批准号:
    61902200
  • 批准年份:
    2019
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目
基于多维数据关联分析的高能物理计算平台智能运维技术研究
  • 批准号:
    11805226
  • 批准年份:
    2018
  • 资助金额:
    28.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Learning support using log data in card operation-based programming learning support system
基于卡操作的编程学习支持系统中使用日志数据的学习支持
  • 批准号:
    22K02815
  • 财政年份:
    2022
  • 资助金额:
    $ 17.46万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
End to End, Cold Chain Validation Using Sample Attached History Log
使用附加历史日志示例进行端到端冷链验证
  • 批准号:
    10688091
  • 财政年份:
    2022
  • 资助金额:
    $ 17.46万
  • 项目类别:
Refined Capture-Recapture Methods for Surveilling Cancer Recurrence
用于监测癌症复发的精细捕获-再捕获方法
  • 批准号:
    10522710
  • 财政年份:
    2022
  • 资助金额:
    $ 17.46万
  • 项目类别:
End to End, Cold Chain Validation Using Sample Attached History Log
使用附加历史日志示例进行端到端冷链验证
  • 批准号:
    10547150
  • 财政年份:
    2022
  • 资助金额:
    $ 17.46万
  • 项目类别:
Development of Analysis Methods for Using Learning Log Data for Quality Assurance of Digital Textbooks
利用学习日志数据保证数字教科书质量的分析方法的开发
  • 批准号:
    22K18611
  • 财政年份:
    2022
  • 资助金额:
    $ 17.46万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了