CAREER: Mining Hints from Text Documents to Guide Automated Database Performance Tuning

职业:从文本文档中挖掘提示来指导自动数据库性能调优

基本信息

  • 批准号:
    2239326
  • 负责人:
  • 金额:
    $ 59.49万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-04-01 至 2028-03-31
  • 项目状态:
    未结题

项目摘要

Database management systems; that is, systems that process and manage large data sets, are used widely, across virtually all sectors of industry. Their performance depends on a variety of tuning decisions, determining how the system processes data internally. For lay users, it is very hard to find settings that optimize performance. This has motivated the creation of automated database tuning tools that try to find optimal settings for them. However, crucial information for database tuning is often available in the form of natural language text, including, for instance, the database manual, text documents describing data sets, as well as discussions on database-centric Internet forums. Currently, automated tools are unable to benefit from such text, making them inefficient. This project aims at creating automated database tuning tools that extract useful information for tuning from a variety of text documents. By increasing the quality of automated tuning tools, the project empowers lay users and reduces the need for highly specialized workers in industry, currently causing staff shortages and hampering the adoption of new technology. At the same time, the project aims at the creation of new teaching offerings, helping to educate the next generation of data professionals.The project is divided into two primary research thrusts, dedicated to the two categories of text documents that are most useful for database system tuning: text about data sets and text about database management systems. Transformer-based language models will be used to extract relevant information from such text documents. The resulting insights can be used in multiple ways for database tuning: to guide data profiling operations prior to tuning, to refine cost models used for tuning, or to restrict the search space of tuning choices. The project will explore all of those options, combining insights gained from text with other sources of information (e.g., trial runs that result in performance measurements for specific tuning choices). The project will consider a representative set of classical database tuning problems, including, for instance, the problem of selecting auxiliary index data structures to optimally support data processing, as well as the problem of finding optimal values for database system configuration parameters. All project outcomes will be integrated into a software package for automated database tuning, using text documents as input. This software will be released to the public.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据库管理系统;也就是说,处理和管理大型数据集的系统在几乎所有工业部门中得到广泛使用。它们的性能取决于各种调整决策,决定系统如何在内部处理数据。对于非专业用户来说,很难找到优化性能的设置。这促使人们创建自动数据库调整工具,试图为其找到最佳设置。然而,数据库调优的关键信息通常以自然语言文本的形式提供,包括数据库手册、描述数据集的文本文档以及以数据库为中心的互联网论坛上的讨论。目前,自动化工具无法从此类文本中受益,从而导致效率低下。该项目旨在创建自动化数据库调整工具,从各种文本文档中提取有用的调整信息。通过提高自动调优工具的质量,该项目为非专业用户提供了支持,并减少了行业对高度专业化工人的需求,这些需求目前导致了人员短缺并阻碍了新技术的采用。同时,该项目旨在创建新的教学产品,帮助教育下一代数据专业人员。该项目分为两个主要研究方向,致力于对数据库最有用的两类文本文档系统调优:有关数据集的文本和有关数据库管理系统的文本。基于 Transformer 的语言模型将用于从此类文本文档中提取相关信息。由此产生的见解可以通过多种方式用于数据库调优:在调优之前指导数据分析操作、细化用于调优的成本模型或限制调优选择的搜索空间。该项目将探索所有这些选项,将从文本中获得的见解与其他信息源相结合(例如,针对特定调整选择进行性能测量的试运行)。该项目将考虑一组具有代表性的经典数据库调优问题,包括选择辅助索引数据结构以最佳支持数据处理的问题,以及寻找数据库系统配置参数的最佳值的问题。所有项目成果都将集成到一个软件包中,以使用文本文档作为输入进行自动数据库调整。该软件将向公众发布。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
DB-BERT: making database tuning tools “read” the manual
  • DOI:
    10.1007/s00778-023-00831-y
  • 发表时间:
    2023-12
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Immanuel Trummer
  • 通讯作者:
    Immanuel Trummer
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Immanuel Trummer其他文献

AggChecker: A Fact-Checking System for Text Summaries of Relational Data Sets
AggChecker:关系数据集文本摘要的事实检查系统
  • DOI:
    10.14778/3352063.3352104
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Saehan Jo;Immanuel Trummer;Weicheng Yu;Xuezhi Wang;Cong Yu;Daniel Liu;Niyati Mehta
  • 通讯作者:
    Niyati Mehta
BABOONS: Black-Box Optimization of Data Summaries in Natural Language
  • DOI:
    10.14778/3551793.3551846
  • 发表时间:
    2022-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Immanuel Trummer
  • 通讯作者:
    Immanuel Trummer
Can Large Language Models Predict Data Correlations from Column Names?
  • DOI:
    10.14778/3625054.3625066
  • 发表时间:
    2023-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Immanuel Trummer
  • 通讯作者:
    Immanuel Trummer
Multi-objective parametric query optimization
多目标参数查询优化
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Immanuel Trummer;Christoph E. Koch
  • 通讯作者:
    Christoph E. Koch
SkinnerMT: Parallelizing for Efficiency and Robustness in Adaptive Query Processing on Multicore Platforms
SkinnerMT:并行化以提高多核平台上自适应查询处理的效率和鲁棒性
  • DOI:
    10.14778/3574245.3574272
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ziyun Wei;Immanuel Trummer
  • 通讯作者:
    Immanuel Trummer

Immanuel Trummer的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Immanuel Trummer', 18)}}的其他基金

III: Small: Regret-Bounded Query Evaluation via Reinforcement Learning
III:小:通过强化学习进行遗憾限制查询评估
  • 批准号:
    1910830
  • 财政年份:
    2019
  • 资助金额:
    $ 59.49万
  • 项目类别:
    Continuing Grant

相似国自然基金

土壤微生物间相互作用对矿业废弃地生态修复的影响研究
  • 批准号:
    42307020
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
企业所有制异质性视角下的中国海外矿业投资多尺度嵌入研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于多要素生态风险过程的矿业城市空间格局优化方法研究
  • 批准号:
  • 批准年份:
    2019
  • 资助金额:
    63 万元
  • 项目类别:
    面上项目
矿业、石油与安全学科发展战略研究报告(2021-2025)
  • 批准号:
    51942402
  • 批准年份:
    2019
  • 资助金额:
    15 万元
  • 项目类别:
    专项基金项目
矿业废弃物制备建筑材料新进展研讨会
  • 批准号:
  • 批准年份:
    2019
  • 资助金额:
    15 万元
  • 项目类别:
    国际(地区)合作与交流项目

相似海外基金

NeTS: Small: NSF-DST: Modernizing Underground Mining Operations with Millimeter-Wave Imaging and Networking
NeTS:小型:NSF-DST:利用毫米波成像和网络实现地下采矿作业现代化
  • 批准号:
    2342833
  • 财政年份:
    2024
  • 资助金额:
    $ 59.49万
  • 项目类别:
    Standard Grant
Development of social attention indicators of emerging technologies and science policies with network analysis and text mining
利用网络分析和文本挖掘开发新兴技术和科学政策的社会关注指标
  • 批准号:
    24K16438
  • 财政年份:
    2024
  • 资助金额:
    $ 59.49万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
ART: Mining the Rich Vein of Research in Montana
艺术:挖掘蒙大拿州研究的丰富脉络
  • 批准号:
    2331325
  • 财政年份:
    2024
  • 资助金额:
    $ 59.49万
  • 项目类别:
    Cooperative Agreement
FightAMR: Novel global One Health surveillance approach to fight AMR using Artificial Intelligence and big data mining
FightAMR:利用人工智能和大数据挖掘对抗 AMR 的新型全球统一健康监测方法
  • 批准号:
    MR/Y034422/1
  • 财政年份:
    2024
  • 资助金额:
    $ 59.49万
  • 项目类别:
    Research Grant
DISES Investigating mercury biogeochemical cycling via mixed-methods in complex artisanal gold mining landscapes and implications for community health
DISES 通过混合方法研究复杂手工金矿景观中的汞生物地球化学循环及其对社区健康的影响
  • 批准号:
    2307870
  • 财政年份:
    2024
  • 资助金额:
    $ 59.49万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了