CAREER: Scalable and Flexible Indexing of Compressed Sequences

职业:压缩序列的可扩展且灵活的索引

基本信息

  • 批准号:
    2337891
  • 负责人:
  • 金额:
    $ 59.82万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2024
  • 资助国家:
    美国
  • 起止时间:
    2024-03-01 至 2029-02-28
  • 项目状态:
    未结题

项目摘要

Lossless data compression is a classical and ubiquitous task that reduces the size of data, leading to a decreased cost of transfer or archival. Modern applications, however, require more than compression. In domains such as computational biology, terabytes of highly compressible data are generated at an increasing rate. To fully take advantage of this data, it needs to be not only stored in a small space but also accessible and searchable. Recent years have witnessed the birth of data structures called "compressed indexes" that can accomplish this task. The research so far, however, has mostly focused on static indexes, leaving out important aspects such as support for updates and efficient construction. This project's overarching goal is to develop powerful, dynamic compressed indexes capable of handling a versatile set of queries and various representations, that can moreover be efficiently constructed. This will make it significantly cheaper, faster, and more energy-efficient to store and share highly compressible datasets such as DNA collections, thereby fully unlocking the potential of advances in DNA sequencing. The advances of this project will also be integrated into research experience for underrepresented students, as well as outreach to non-computer science students.The main research goals of this project can be broadly classified into the following three directions. First, the project will lead to new efficient algorithms for constructing compressed indexes. The new approach lies in first preprocessing the input using lightly sub-optimal compression and then constructing the final index in compressed time, i.e., time proportional to the precompressed text. Second, the project aims to utilize and improve modern suffix sampling techniques to design new and powerful indexes that are both compressed and able to support powerful queries, including multi-string representations. Finally, the project will study the underdeveloped landscape of lower bounds for compressed indexes. Currently, only the most basic queries, such as random access, are well-understood, and much less is known about lower bounds on more versatile representations or lower bounds for compressed computation.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
无损数据压缩是一项经典且普遍存在的任务,可降低数据的大小,导致转移或档案的成本降低。但是,现代应用不仅仅需要压缩。在诸如计算生物学之类的领域中,高度可压缩数据的Terabytes以越来越多的速率生成。为了充分利用这些数据,它不仅需要存储在一个小空间中,而且还需要访问和可搜索。近年来,目睹了可以完成这项任务的数据结构的诞生,称为“压缩索引”。但是,到目前为止,这项研究主要集中在静态索引上,遗漏了重要方面,例如对更新和有效构造的支持。该项目的总体目标是开发功能强大的,动态的压缩索引,能够处理一套多功能的查询和各种表示形式,这些索引可以有效地构建。这将使存储和共享高度可压缩数据集(例如DNA收集)的便宜,更快,更节能,从而完全释放了DNA测序中进步的潜力。该项目的进步还将纳入代表性不足的学生以及向非计算机科学专业学生推广的研究经验中。该项目的主要研究目标可以广泛分为以下三个方向。首先,该项目将导致用于构建压缩索引的新有效算法。新方法在于首先使用轻度亚最佳压缩的输入进行预处理,然后在压缩时间(即与预制文本成比例的时间)中构造最终索引。其次,该项目旨在利用和改进现代后缀采样技术来设计新的和强大的索引,这些索引既可以压缩又能够支持强大的查询,包括多弦表示。最后,该项目将研究压缩索引的下限的欠发达景观。当前,只有最基本的查询,例如随机访问,才被理解得很厉害,对更广泛的表示的下限或压缩计算的下限知之甚少。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的知识分子优点和更广泛影响的审查标准来通过评估来通过评估来获得支持的。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Dominik Kempa其他文献

Grammar Boosting: A New Technique for Proving Lower Bounds for Computation over Compressed Data
语法提升:一种证明压缩数据计算下限的新技术
  • DOI:
    10.48550/arxiv.2307.08833
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    9.9
  • 作者:
    Rajat De;Dominik Kempa
  • 通讯作者:
    Dominik Kempa
Grammar Precompression Speeds Up Burrows-Wheeler Compression
语法预压缩加速 Burrows-Wheeler 压缩
  • DOI:
    10.1007/978-3-642-34109-0_34
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Juha Kärkkäinen;Pekka Mikkola;Dominik Kempa
  • 通讯作者:
    Dominik Kempa
String Attractors: Verification and Optimization
字符串吸引子:验证和优化
  • DOI:
    10.4230/lipics.esa.2018.52
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Dominik Kempa;A. Policriti;N. Prezza;E. Rotenberg
  • 通讯作者:
    E. Rotenberg
Dynamic suffix array with polylogarithmic queries and updates
具有多对数查询和更新的动态后缀数组
素因数分解の現状
质因数分解的现状
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hideo Bannai;Travis Gagie;Shunsuke Inenaga;Juha K_rkk_inen;Dominik Kempa;Marcin Piatkowski;Shiho Sugimoto;Shimizu S;藤井夏海・V. Sharma・藤澤和謙・村上 章;Charles Jordan;岸野洋久;伊豆 哲也,國廣 昇
  • 通讯作者:
    伊豆 哲也,國廣 昇

Dominik Kempa的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

面向智能网卡的可扩展FPGA包分类技术研究
  • 批准号:
    62372123
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
面向高并发软件的可扩展建模与分析技术研究
  • 批准号:
    62302375
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于随机化的高效可扩展深度学习算法研究
  • 批准号:
    62376131
  • 批准年份:
    2023
  • 资助金额:
    51 万元
  • 项目类别:
    面上项目
包含时空维度的可扩展光MIMO解调芯片与均衡器
  • 批准号:
    62335019
  • 批准年份:
    2023
  • 资助金额:
    225.00 万元
  • 项目类别:
    重点项目
基于可扩展去蜂窝架构的大规模低时延高可靠通信研究
  • 批准号:
    62371039
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目

相似海外基金

Amutri3D - revolutionising the 3D-visualisation industry by offering a more scalable, flexible and faster solution for multiple sector uses
Amutri3D - 通过为多个行业用途提供更具可扩展性、灵活且更快的解决方案,彻底改变 3D 可视化行业
  • 批准号:
    10061530
  • 财政年份:
    2023
  • 资助金额:
    $ 59.82万
  • 项目类别:
    Collaborative R&D
RI: Small: Semantic 3D Neural Rendering Field Models that are Accurate, Complete, Flexible, and Scalable
RI:小型:准确、完整、灵活且可扩展的语义 3D 神经渲染场模型
  • 批准号:
    2312102
  • 财政年份:
    2023
  • 资助金额:
    $ 59.82万
  • 项目类别:
    Continuing Grant
IMR: MT: NetFlex: A Flexible Scalable & Privacy-Preserving Network Measurement Platform to Iteratively Collect Multi-modal Multi-view Network Data from Access Networks
IMR:MT:NetFlex:灵活的可扩展
  • 批准号:
    2323229
  • 财政年份:
    2023
  • 资助金额:
    $ 59.82万
  • 项目类别:
    Continuing Grant
CAREER: Laser-Induced Graphene with On-Demand Morphology and Chemistry Control for Scalable Flexible Device Manufacturing
职业:具有按需形态和化学控制的激光诱导石墨烯,用于可扩展的柔性设备制造
  • 批准号:
    2239244
  • 财政年份:
    2023
  • 资助金额:
    $ 59.82万
  • 项目类别:
    Standard Grant
Flexible and scalable digital-twin platform for enhanced production efficiency and yield in battery cell production lines - BATTwin
灵活且可扩展的数字孪生平台,可提高电池生产线的生产效率和产量 - BATTwin
  • 批准号:
    10118186
  • 财政年份:
    2023
  • 资助金额:
    $ 59.82万
  • 项目类别:
    EU-Funded
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了