基于统计学习的云计算系统故障检测与诊断方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61402450
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    24.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0203.软件理论、软件工程与服务
  • 结题年份:
    2017
  • 批准年份:
    2014
  • 项目状态:
    已结题
  • 起止时间:
    2015-01-01 至2017-12-31

项目摘要

Cloud computing technologies are developing rapidly, and have been well applied in various fields. Cloud computing systems are prone to faults due to the large system scale, dynamic deployment environment and complex component interactions. Therefore, fault detection and diagnosis technologies have become the key to assuring the reliability of cloud services.. In existing studies, monitoring methods setting monitoring strategies manually cannot adapt to kinds of cloud applications; static fault detection models are not suitable for the dynamic deployment environment for cloud applications; problem determination in fine granularity is difficult due to complex interactions between components. To address these issues, this project uses statistical learning methods to study the system monitoring, fault detection and problem location for cloud systems. Studies involve fault prediction based dynamic self-adaptive monitoring technologies, context-aware fault detection methods, and propagation-aware problem location methods. Furthermore, this project will implement a prototype system, and use our real cloud computing platform and cloud applications to validate the proposed theories, methods and technologies. The project aims at timely detecting faults and accurately locating the root causes of problems to give the theoretical basis and technical support for building cloud systems with high reliability.
云计算技术飞速发展,已广泛应用于诸多领域。巨大的系统规模、动态的部署环境、复杂的组件交互使得云计算系统更易于出现故障。因此,云计算系统的故障检测与诊断技术成为保障云服务可靠性的关键之一。. 已有研究存在诸多不足,包括:系统监测需要根据应用特点人工制定监控策略,无法适应多样化云应用的需要;静态的故障检测模型,难以应对云应用运行环境的动态变化;复杂的组件交互使得组件相互影响,难以细粒度准确定位问题原因。针对这些问题,本项目以统计学习为主要研究手段,研究云计算系统的动态监测、故障检测与诊断方法。研究内容包括:基于故障预测的动态自适应监测技术、基于环境感知的故障检测方法以及面向故障传播的问题定位方法。进而,实现原型系统,结合实际云计算平台与云应用对提出的理论、方法和技术进行有效性验证。旨在及时检测到系统故障,并准确定位问题原因,为实现高可靠的云计算系统提供理论依据和技术支撑。

结项摘要

本项目以机器学习为主要研究手段,研究云计算系统的动态监测、故障检测与故障诊断方法。.在运行监测方面,大量监测数据的搜集、传输、存储和分析对系统造成巨大开销,本项目提出了一种基于异常程度评估的自适应监测方法。首先,发现度量间的相关性,建立度量关联图以选择关键度量;而后,使用主成分分析得到监测数据的主特征向量以刻画运行状态,进而基于余弦相似度评估异常程度;最后,建立可靠性模型以预测系统出现故障的时间,基于此动态调整监测周期。该方法能够适应云环境的负载动态变化,准确评估系统异常程度,自动调整监测频率以提高系统在异常状况下故障检测的准确性与及时性,同时降低在正常运行过程中的监测开销。.在故障检测方面,针对应用的复杂性和负载的动态性造成人工构建系统模型并估计参数困难的问题,本项目提出一种基于关联分析的故障检测方法。首先,自动建立工作负载与性能之间的关联性以建模运行状态;而后,检测关联系数稳定性以发现系统异常;最后,使用特征选取量化各度量的异常程度从而定位异常度量。该方法同时考虑到多种性能指标及其关联性,自动构建适应负载变化的系统状态模型。.在故障诊断方面,针对当前方法难以细粒度定位问题原因的问题, 本项目提出一种基于执行轨迹监测的故障诊断方法。首先,使用动态插桩监测服务组件的请求处理流,刻画请求处理的执行轨迹;然后,面向执行轨迹故障,使用树编辑距离评估请求处理的异常程度,通过对比执行轨迹差异来定位引发故障的方法调用;最后,面向性能异常,使用主成分分析抽取引起系统性能异常波动的关键服务调用。该方法可以准确刻画请求处理的执行轨迹,自动化细粒度准确定位系统故障以及性能异常原因。.实现原型系统,结合实际云应用对提出的理论、方法和技术进行实验评价,表明所提出方法能够以较低监测开销,及时检测系统故障,细粒度准确定位问题组件,从而实现提高云计算系统性能、可靠性和可用性的目标。

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(2)
Self-adaptive cloud monitoring with online anomaly detection
具有在线异常检测功能的自适应云监控
  • DOI:
    10.1016/j.future.2017.09.067
  • 发表时间:
    2018-03
  • 期刊:
    Future Generation Computer Systems
  • 影响因子:
    --
  • 作者:
    Tao Wang;Jiwei Xu;Wenbo Zhang;Zeyu Gu;Hua Zhong
  • 通讯作者:
    Hua Zhong
一种基于遗传算法的虚拟机镜像自适应备份策略
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    计算机学报
  • 影响因子:
    --
  • 作者:
    徐继伟;张文博;王焘;黄涛
  • 通讯作者:
    黄涛
Clustering-based acceleration for virtual machine image deduplication in the cloud environment
云环境下基于集群的虚拟机镜像去重加速
  • DOI:
    10.1016/j.jss.2016.02.021
  • 发表时间:
    2016-11
  • 期刊:
    Journal of Systems and Software
  • 影响因子:
    3.5
  • 作者:
    Xu Jiwei;Zhang Wenbo;Zhang Zhenyu;Wang Tao;Huang Tao
  • 通讯作者:
    Huang Tao
ReSeer: Efficient search-based replay for multiprocessor virtual machines
ReSeer:针对多处理器虚拟机的基于搜索的高效重放
  • DOI:
    10.1016/j.jss.2016.07.032
  • 发表时间:
    2017-04
  • 期刊:
    JOURNAL OF SYSTEMS AND SOFTWARE
  • 影响因子:
    3.5
  • 作者:
    Tao Wang;Jiwei Xu;Wenbo Zhang;Jianhua Zhang;Jun Wei;Hua Zhong
  • 通讯作者:
    Hua Zhong
云环境下基于统计监测的分布式软件系统故障检测技术研究
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    计算机学报
  • 影响因子:
    --
  • 作者:
    王焘;张文博;徐继伟;魏峻;钟华
  • 通讯作者:
    钟华

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

腐蚀预测模型的概述及展望
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    市政技术
  • 影响因子:
    --
  • 作者:
    王焘;张雅君;许萍;向超
  • 通讯作者:
    向超
基于相似度匹配的服务故障诊断方法
  • DOI:
    --
  • 发表时间:
    2021
  • 期刊:
    计算机系统应用
  • 影响因子:
    --
  • 作者:
    陈皓;许源佳;王焘;张文博
  • 通讯作者:
    张文博
基于结构光投影的二维S变换轮廓术
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    光学学报
  • 影响因子:
    --
  • 作者:
    王焘;陈文静;钟敏;苏显渝
  • 通讯作者:
    苏显渝
螺栓-法兰连接结构非线性优化设计方法研究综述
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    强度与环境
  • 影响因子:
    --
  • 作者:
    徐超;张铎;王焘;郑晓亚
  • 通讯作者:
    郑晓亚
采用非匹配网格离散的快速边界元-有限元宽频声振耦合分析
  • DOI:
    --
  • 发表时间:
    2018
  • 期刊:
    西安交通大学学报
  • 影响因子:
    --
  • 作者:
    王博;王焘;尤军峰;校金友
  • 通讯作者:
    校金友

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

王焘的其他基金

基于执行踪迹推断的云应用异常诊断技术研究
  • 批准号:
    61872344
  • 批准年份:
    2018
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码