Development of system reliability improvement technology based on medium- to long-term failure prediction

基于中长期故障预测的系统可靠性提升技术开发

基本信息

  • 批准号:
    21H03449
  • 负责人:
  • 金额:
    $ 10.73万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本研究の目的は,従来の大規模高性能計算システムの高信頼化技術と大規模データ解析技術を融合させることで,将来起こりえる障害に対する対応策を導き出すことが可能な高性能計算システムの信頼化技術を確立することにある.システムのヘルスモニタリング情報と障害発生の因果関係を解明することで,中長期的な障害発生予測・検知技術の開発に取り組み,これらの予測に基づいたシステムの信頼性を堅持・向上させるための施策をシステマティックに適用可能な要素技術に関する研究開発に取り組んだ.2021年度は,高性能計算システムシステムのシステムログやヘルスモニタリング情報と障害発生履歴の相関関係を解明することを目的に,これらの情報を蓄積するデータベースの基本設計と障害発生予測手法の検討を行った.データベースは再利用性と拡張性を考慮して設計し.今後実システムで生じる障害を記録,蓄積することを可能にしている.障害発生予測に関しては現在の当研究で対象としているシステムに障害発生事例数の制約により,一般に公開されている高性能計算システムの障害履歴・システムログ・エラーメッセージ・アラートなどから構成される大規模データを用いた予測手法の基本設計に着手し初期評価が可能な段階である.また,障害回避・復旧に関しては,ホスト・アクセラレータから構成されるヘテロジニアスな構成計算システムにおけるジョブスケジューリング手法と,次年度以降に障害回避・復旧機構を評価可能とするジョブスケジューリングシミュレータの基本設計に着手した.
这项研究的目的是为可靠的高性能计算系统建立技术,通过结合将传统大规模高性能计算系统的可靠性与大规模数据分析技术相结合,可以通过结合提高传统大规模高性能计算系统的可靠性来为未来失败提供解决方案。通过阐明系统健康监测信息与发生故障之间的因果关系,我们致力于开发长期到长期故障预测和检测技术,以及基于这些预测的元素技术的研究和开发,这些技术可以系统地采用措施来维持和提高系统的可靠性。在2021财年,我们研究了一个数据库的基本设计,该数据库累积了此信息和失败预测方法,目的是阐明系统日志与健康监控信息之间的相关性,以实现高性能计算系统系统和失败历史记录。该数据库的设计考虑了可重复性和可扩展性。它可以记录并积累将来实际系统中发生的故障。关于失败预测,由于对本研究中针对的系统中故障案例的数量的限制,我们开始使用大规模数据开始对预测方法的基本设计,该数据包括故障历史记录,系统日志,错误消息,警报等,公开可用的高表现计算系统,现在可以执行初始评估。关于避免失败和恢复,我们已经开始了由主机加速器组成的异质配置计算系统的作业调度方法的基本设计,以及可以从明年开始评估失败和恢复机制的工作模拟器。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Towards Conflict-Aware Workload Co-execution on SX-Aurora TSUBASA
在 SX-Aurora TSUBASA 上实现冲突感知工作负载协同执行
  • DOI:
    10.1007/978-3-030-96772-7_16
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Riku Nunokawa;Yoichi Shimomura;Mulya Agung;Ryusuke Egawa;and Hiroyuki Takizawa
  • 通讯作者:
    and Hiroyuki Takizawa
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

江川 隆輔其他文献

高メモリ幅メモリのための省電力データ配置手法に関する研究
高存储宽度存储器节能数据放置技术研究
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宇野 渉;佐藤 雅之;江川 隆輔;小林 広明;豊嶋拓也,佐藤雅之,江川隆輔 小林広明
  • 通讯作者:
    豊嶋拓也,佐藤雅之,江川隆輔 小林広明
キャッシュメモリにおけるスレッド間共有データの管理に関する研究
高速缓冲存储器中线程间共享数据的管理研究
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西村 秦;佐藤 雅之;江川 隆輔;滝沢 寛之;小林 広明
  • 通讯作者:
    小林 広明
三次元積層型浮動小数点積和演算器の回路分割手法の検討
三维堆叠浮点乘累加单元电路划分方法研究
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    細川 磨生;多田 十兵衛;江川 隆輔;小林 広明
  • 通讯作者:
    小林 広明
ベクトル型メディアプロセッサの低消費電力化に関する研究
降低矢量媒体处理器功耗的研究
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宇野 渉;高 也;佐藤 雅之;江川 隆輔;滝沢 寛之;小林 広明
  • 通讯作者:
    小林 広明
実アプリを用いた様々なアーキテクチャからなる計算機システムの性能評価
使用真实应用程序评估由各种架构组成的计算机系统的性能
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    深沢 圭一郎;片桐 孝洋;大宮 学;江川 隆輔;大島 聡史;青木 尊之;下川辺 隆史;荻野 正雄;岩下 武史;東田 学
  • 通讯作者:
    東田 学

江川 隆輔的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('江川 隆輔', 18)}}的其他基金

ウェーブパイプラインのための等遅延回路の新設計手法に関する研究
波形管道等延迟电路设计新方法研究
  • 批准号:
    17700044
  • 财政年份:
    2005
  • 资助金额:
    $ 10.73万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似海外基金

AIによるステントグラフト内挿術後の脊髄障害発生予測モデル構築とバイオマーカー探索
利用人工智能构建预测支架植入后脊髓损伤发生的模型并寻找生物标志物
  • 批准号:
    24K11964
  • 财政年份:
    2024
  • 资助金额:
    $ 10.73万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
ネックバンド型スマートセンサによる日常生活動作時の連続血圧計測と血管障害発症予防
使用颈带式智能传感器在日常活动中连续测量血压并预防血管疾病
  • 批准号:
    24K15853
  • 财政年份:
    2024
  • 资助金额:
    $ 10.73万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
生体センシングデバイスを活用した縦断的データによる双極性障害再発予測モデルの開発
使用生物传感设备使用纵向数据开发双相情感障碍复发预测模型
  • 批准号:
    23K14791
  • 财政年份:
    2023
  • 资助金额:
    $ 10.73万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
地域高齢者における将来の生活機能障害発生を予測するモデルの開発とその社会実装
当地老年人未来功能残疾预测模型的建立及其社会实施
  • 批准号:
    20K11020
  • 财政年份:
    2020
  • 资助金额:
    $ 10.73万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
健康寿命の延伸に向けた人工知能による動作解析と運動器障害発生予測システムの構築
使用人工智能进行运动分析并构建预测肌肉骨骼疾病发生的系统以延长健康预期寿命
  • 批准号:
    20K19317
  • 财政年份:
    2020
  • 资助金额:
    $ 10.73万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了