CNS Core: Small: Intelligent Fault Injection to Expose and Reproduce Production-Grade Bugs in Cloud Systems
CNS 核心:小型:智能故障注入以暴露和重现云系统中的生产级错误
基本信息
- 批准号:2317698
- 负责人:
- 金额:$ 50万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-01-01 至 2024-11-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Failures of production distributed systems are costly. Despite extensive efforts on testing distributed systems, many bugs remain difficult to find in testing even when a system is tested with appropriate input. This is because these bugs are triggered by the unique faulty events in the production environment. Fault injection has been proposed to simulate faults during testing with the goal of catching such bugs. However, existing solutions treat the target systems as a black box and only inject simple faults using random choices. Production failures are often caused by bugs that require complex, system-specific faults at careful timing to trigger.This project takes a holistic approach to address the fundamental limitations in current fault injection testing. The project develops special compiler support to enable the injection of system-specific faults at a fine granularity with precise control. To efficiently explore the large fault injection space and expose bugs, this project designs new fault injection decision algorithms and machine learning methods. A new adaptive method further analyzes production execution traces to quickly reproduce fault-induced failures in offline environment. Bugs in production distributed systems have resulted in substantial financial losses to society. The new fault injection techniques developed in this project will help effectively catch a wide range of production-grade bugs in large distributed systems and improve the availability of cloud services. This project will closely engage with developers in the open-source community to improve the distributed systems code quality and testing practice.The software artifact this project develops will be open sourced and available at https://github.com/OrderLab. The project results, including paper publications, technical reports, and presentations will be made available for free download and be maintained for at least five years beyond the completion of the project.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
生产分布式系统的故障代价高昂。尽管在测试分布式系统方面付出了巨大的努力,但即使使用适当的输入来测试系统,在测试中仍然很难发现许多错误。这是因为这些错误是由生产环境中特有的故障事件触发的。人们提出了故障注入来模拟测试过程中的故障,目的是捕获此类错误。 然而,现有的解决方案将目标系统视为黑匣子,并且仅使用随机选择注入简单的故障。 生产故障通常是由错误引起的,这些错误需要在仔细的时间触发复杂的、系统特定的故障。该项目采用整体方法来解决当前故障注入测试中的基本限制。 该项目开发了特殊的编译器支持,以便能够通过精确控制以细粒度注入系统特定的故障。为了有效地探索庞大的故障注入空间并暴露错误,该项目设计了新的故障注入决策算法和机器学习方法。一种新的自适应方法进一步分析生产执行轨迹,以在离线环境中快速重现故障引起的故障。生产分布式系统中的错误给社会造成了巨大的经济损失。该项目开发的新故障注入技术将有助于有效捕获大型分布式系统中的各种生产级错误,并提高云服务的可用性。该项目将与开源社区的开发人员密切合作,以提高分布式系统代码质量和测试实践。该项目开发的软件工件将开源并可在 https://github.com/OrderLab 上获取。项目成果,包括纸质出版物、技术报告和演示文稿,将可供免费下载,并在项目完成后至少保留五年。该奖项反映了 NSF 的法定使命,经评估认为值得支持利用基金会的智力优势和更广泛的影响审查标准。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Peng Huang其他文献
Characterization and expression of HLysG2, a basic goose-type lysozyme from the human eye and testis.
HLysG2 的表征和表达,HLysG2 是一种来自人眼和睾丸的碱性鹅型溶菌酶。
- DOI:
10.1016/j.molimm.2010.10.008 - 发表时间:
2024-09-14 - 期刊:
- 影响因子:3.6
- 作者:
Peng Huang;Wen;Jun Xie;Xian;D. Jiang;Song;Long Yu - 通讯作者:
Long Yu
Vibration Characteristics of Corn Combine Harvester with the Time-Varying Mass System under Non-Stationary Random Vibration
时变质量系统玉米联合收割机非平稳随机振动下的振动特性
- DOI:
10.3390/agriculture12111963 - 发表时间:
2022-11-21 - 期刊:
- 影响因子:0
- 作者:
Yanchun Yao;XiaoKe Li;Zihan Yang;Liang Li;Duanyang Geng;Peng Huang;Yongsheng Li;Zhenghe Song - 通讯作者:
Zhenghe Song
NET Institute* www.NETinst.org
NET 研究所* www.NETinst.org
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
Peng Huang;M. Ceccagnoli;Chris Forman;D. J. Wu - 通讯作者:
D. J. Wu
Metabolic reprogramming and redox adaptation in sorafenib-resistant leukemia cells: detected by untargeted metabolomics and stable isotope tracing analysis
索拉非尼耐药白血病细胞的代谢重编程和氧化还原适应:通过非靶向代谢组学和稳定同位素示踪分析检测
- DOI:
10.1186/s40880-019-0362-z - 发表时间:
2019-04-04 - 期刊:
- 影响因子:16.2
- 作者:
Xin You;Weiye Jiang;Wen;Hui Zhang;Tiantian Yu;Jingyu Tian;S. Wen;G. Garcia;Peng Huang;Yumin Hu - 通讯作者:
Yumin Hu
[Antitumor activity of lycorine in renal cell carcinoma ACHN cell line and its mechanism].
石蒜碱对肾细胞癌ACHN细胞系的抗肿瘤活性及其机制
- DOI:
- 发表时间:
2016-06-01 - 期刊:
- 影响因子:0
- 作者:
Yiqiang Huang;Yiming Zhang;Zhong Jin;Xiezhao Li;Chongshan Wang;Kai Xu;Peng Huang;Chunxiao Liu - 通讯作者:
Chunxiao Liu
Peng Huang的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Peng Huang', 18)}}的其他基金
CAREER: Towards Gray-Fault Tolerant Cloud through Harnessing and Enhancing System Observability
职业:通过利用和增强系统可观测性迈向灰色容错云
- 批准号:
2317751 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
FMitF: Track I: Synthesizing Semantic Checkers for Runtime Verification of Production Distributed Systems
FMITF:第一轨:综合语义检查器以进行生产分布式系统的运行时验证
- 批准号:
2318937 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
CNS Core: Small: Intelligent Fault Injection to Expose and Reproduce Production-Grade Bugs in Cloud Systems
CNS 核心:小型:智能故障注入以暴露和重现云系统中的生产级错误
- 批准号:
2149664 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
CAREER: Towards Gray-Fault Tolerant Cloud through Harnessing and Enhancing System Observability
职业:通过利用和增强系统可观测性迈向灰色容错云
- 批准号:
1942794 - 财政年份:2020
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
CRII: CSR: Toward Understanding and Automatically Detecting Specious Configuration in Large Systems
CRII:CSR:理解和自动检测大型系统中的可疑配置
- 批准号:
1755737 - 财政年份:2018
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
相似国自然基金
polyG蛋白聚集体诱导小胶质细胞活化在神经元核内包涵体病中的作用及机制研究
- 批准号:82301603
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于NRF2调控KPNB1促进PD-L1核转位介导非小细胞肺癌免疫治疗耐药的机制研究
- 批准号:82303969
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
前丘脑室旁核小胶质细胞经由TNF-α参与强迫进食行为的作用及机制研究
- 批准号:82301521
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
空间邻近标记技术研究莱茵衣藻蛋白核小管与碳浓缩机制的潜在关系
- 批准号:32300220
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
小胶质细胞调控外侧隔核-腹侧被盖区神经环路介导社交奖赏障碍的机制研究
- 批准号:82304474
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
CNS Core: Small: Core Scheduling Techniques and Programming Abstractions for Scalable Serverless Edge Computing Engine
CNS Core:小型:可扩展无服务器边缘计算引擎的核心调度技术和编程抽象
- 批准号:
2322919 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
CNS Core: Small: Network Wide Sensing by Leveraging Cellular Communication Networks
CNS 核心:小型:利用蜂窝通信网络进行全网络传感
- 批准号:
2343469 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
NSF-BSF: CNS Core: Small: Reliable and Zero-Power Timekeepers for Intermittently Powered Computing Devices via Stochastic Magnetic Tunnel Junctions
NSF-BSF:CNS 核心:小型:通过随机磁隧道结为间歇供电计算设备提供可靠且零功耗的计时器
- 批准号:
2400463 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Small: Accelerating Serverless Cloud Network Performance
协作研究:CNS 核心:小型:加速无服务器云网络性能
- 批准号:
2229454 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Small: A Compilation System for Mapping Deep Learning Models to Tensorized Instructions (DELITE)
合作研究:CNS Core:Small:将深度学习模型映射到张量化指令的编译系统(DELITE)
- 批准号:
2230945 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant