喵ID:nAnYv0免责声明

Error-Bounded Learned Scientific Data Compression with Preservation of Derived Quantities

保留导出量的误差有限的学习科学数据压缩

基本信息

DOI:
10.3390/app12136718
发表时间:
2022
影响因子:
--
通讯作者:
A. Rangarajan
中科院分区:
文献类型:
--
作者: Jaemoon Lee;Qian Gong;J. Choi;Tania Banerjee;S. Klasky;Sanjay Ranka;A. Rangarajan研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Scientific applications continue to grow and produce extremely large amounts of data, which require efficient compression algorithms for long-term storage. Compression errors in scientific applications can have a deleterious impact on downstream processing. Thus, it is crucial to preserve all the “known” Quantities of Interest (QoI) during compression. To address this issue, most existing approaches guarantee the reconstruction error of the original data or primary data (PD), but cannot directly control the problem of preserving the QoI. In this work, we propose a physics-informed compression technique that is composed of two parts: (i) reduction of the PD with bounded errors and (ii) preservation of the QoI. In the first step, we combine tensor decompositions, autoencoders, product quantizers, and error-bounded lossy compressors to bound the reconstruction error at high levels of compression. In the second step, we use constraint satisfaction post-processing followed by quantization to preserve the QoI. To illustrate the challenges of reducing the reconstruction errors of the PD and QoI, we focus on simulation data generated by a large-scale fusion code, XGC, which can produce tens of petabytes in a single day. The results show that our approach can achieve a high compression amount while accurately preserving the QoI within scientifically acceptable bounds.
科学应用不断发展并产生极大量的数据,这些数据需要高效的压缩算法以进行长期存储。科学应用中的压缩错误可能对下游处理产生有害影响。因此,在压缩过程中保留所有“已知”的关注量(QoI)至关重要。为解决这一问题,大多数现有方法保证原始数据或主数据(PD)的重建误差,但无法直接控制保留QoI的问题。在这项工作中,我们提出一种物理信息压缩技术,它由两部分组成:(i)在有界误差下对PD进行降维,以及(ii)保留QoI。在第一步中,我们结合张量分解、自动编码器、乘积量化器和有界误差有损压缩器,在高压缩水平下限制重建误差。在第二步中,我们使用约束满足后处理,然后进行量化以保留QoI。为说明减少PD和QoI重建误差的挑战,我们聚焦于由大规模聚变代码XGC生成的模拟数据,该代码一天可产生数十拍字节的数据。结果表明,我们的方法能够在科学可接受的范围内准确保留QoI的同时实现高压缩量。
参考文献(0)
被引文献(15)

数据更新时间:{{ references.updateTime }}

A. Rangarajan
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓