基于多维数据关联分析的高能物理计算平台智能运维技术研究
项目介绍
AI项目解读
基本信息
- 批准号:11805226
- 项目类别:青年科学基金项目
- 资助金额:28.0万
- 负责人:
- 依托单位:
- 学科分类:A2804.粒子探测技术
- 结题年份:2021
- 批准年份:2018
- 项目状态:已结题
- 起止时间:2019-01-01 至2021-12-31
- 项目参与者:崔涛; 姜晓巍; 杜然; 郑伟; 程振京; 张文韬;
- 关键词:
项目摘要
With the expansion of the calculation scale of high-energy physics experiment, the environment of high-energy physics computing platform is increasingly complex, and the stability of platform operation is affected by more and more factors. Network environment, system environment, storage system, job scheduling, and even the operation mode of experimental physical job may affect the stability of high-energy physics computing environment. How to evaluate the running status of the platform based on the global monitoring information, timely find the exception event and locate the trigger, become an urgent need for the operation and maintenance of high energy physics computing platform. This project will use data acquisition, data processing, machine learning, data index technologies, converge multi-dimensional monitoring information, establish a multidimensional fault model with network, system, storage and scheduling factors by offline correlation analysis. Monitoring high-energy physics computing platform running status and intuitive display, through this model and historical fault determination rules.
随着高能物理实验计算规模的扩大,高能物理计算平台环境日益复杂,平台运行的稳定性受到越来越多因素的影响。网络环境、系统环境、存储系统、作业调度,甚至实验物理作业本身的运行方式等都可能影响高能物理计算环境的稳定性。如何全面获取监控信息,综合评估计算平台运行状态,及时发现计算环境中的异常服务并快速定位诱发原因,成为当下高能物理计算平台运行维护的迫切需求。本项目结合数据采集、大数据处理、机器学习、海量数据索引等技术,整合多维度集群运行相关数据信息,通过对异常事件及相关数据的离线关联分析,对网络、系统、存储、作业调度等维度建立异常特征模型,结合现有异常决策规则,对计算平台进行多维度监控展示和及时告警。
结项摘要
随着高能物理实验计算规模的扩大,高能物理计算平台运维环境日益复杂,平台服务运行质量面临较大影响。另外,面向不同系统的监控工具种类繁多,功能相对重叠且各系统监控数据相对孤立,无法形成整合进行统一分析挖掘,运维效率低下。.本课题主要结合大数据、机器学习、流处理等技术,采用数据采集、分析、存储、展现等完整流程,设计实现计算平台统一的监控数据运维分析系统。全面采集计算平台设施监控、计算服务、数据访问、网络安全等各维度基础运维数据,通过关联分析和数据建模等方法形成平台运维专家知识库,基于异常特征快速定位故障原因,发送告警信息,反馈和调整作业调度策略,提高计算平台运行质量。.该课题设计部署了一套可广泛应用计算平台智能运维系统,实现了运维监控从数据持久化,统一化到数据业务化、生态化的价值演进,完成了平台日常运维中故障发生、故障发现、故障识别、联动反馈、故障止损、根因分析、丰富故障特征库等完整的闭环流程,解决了大规模计算平台日益复杂的运维难题。.该运维系统与高能物理计算平台作业调度系统相结合,设计部署了计算资源自动化管理系统,实现了异常节点自动移除资源池,新增设备自动加入资源池等功能,提升整体资源利用率。运维系统与高能物理计算平台数据存储系统相结合,设计部署了用户作业异常io行为检测系统,快速采集集群作业io行为特征指标,对比历史作业io特征,通过孤立森林算法查找异常特征的用户作业,向平台运维人员告警。另外,该系统与机房基础设施管理、云计算虚拟化、网络安全检测方向深度融合,设计开发了面向不同业务场景的监控数据分析和运维管理系统,取得了良好的应用效果,实现了基于数据驱动的高能物理计算平台智能化运维生态。
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(0)
国家高能物理科学数据中心分布式数据处理平台
- DOI:10.11871/jfdc.issn.2096-742x.2022.01.008
- 发表时间:2022
- 期刊:数据与计算发展前沿
- 影响因子:--
- 作者:石京燕;黄秋兰;汪璐;李海波;杜然;姜晓巍;胡庆宝;郑伟;闫晓飞;张玄同
- 通讯作者:张玄同
高能物理科学数据中心智能运维系统
- DOI:--
- 发表时间:--
- 期刊:数据与计算发展前沿
- 影响因子:--
- 作者:胡庆宝;郑伟;王佳荣;汪璐;颜田
- 通讯作者:颜田
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于H.264/SVC的P2P内容分发系统设计与实现
- DOI:--
- 发表时间:2012
- 期刊:电子技术应用
- 影响因子:--
- 作者:胡庆宝;周旭;白帆;黄威;唐朝伟;宗伟
- 通讯作者:宗伟
Kubernetes 异构资源细粒度调度策略的设计与实现
- DOI:--
- 发表时间:2022
- 期刊:计算机工程
- 影响因子:--
- 作者:刘志彬;黄秋兰;胡庆宝;程耀东
- 通讯作者:程耀东
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}