Application of Unconventional Linear Algebra Techniques to Continuous Learning in Supergiant Neural Networks

非常规线性代数技术在超巨神经网络连续学习中的应用

基本信息

  • 批准号:
    20K20624
  • 负责人:
  • 金额:
    $ 16.22万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Challenging Research (Pioneering)
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-07-30 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

深層学習へ2次最適化を適用する際に課題となる大規模な密行列の分解を高速かつ並列に行うための新たな手法を複数開発した。大きさがNxNの密行列のLU分解はO(N^3)の計算量を要するが、HSS行列やH行列などの階層的低ランク近似法を用いることでその計算量をO(NlogN)もしくはO(N)に低減できる。しかし、HSS行列では弱許容条件を用いるため高次元の問題では非対角ブロックのランクがNとともに増大しO(N)の手法ではなくなるものおn、ULV分解の原理を応用することでブロック同士の依存性をなくし超並列で計算できる。また、H行列は強許容条件を用いるためランクの増大はないものの、非対角の密ブロックから生じるfill inによりULV分解の原理を用いたとしても超並列な行列分解ができない。本研究ではHSS-ULV分解の並列度とH行列のO(N)の計算量の両方を併せ持つH^2-ULV分解開発した。H^2行列はHSS行列と同様、行や列ブロックの基底を共有する。ただし、基底を共有しただけでは密ブロックから生じるfill inを防げないため、超並列なLU分解はそのままではできない。そこで、予めfill inを計算しておき、それらを行や列ブロックの基底に含めることで、ULV分解の際に生じるfill inを共有基底を更新することなく再圧縮でき、強許容条件を有しながらも超並列なLU分解を世界で初めて実現した。この成果は高性能計算分野のトップカンファレンスであるSC22に採択された。さらに、この研究から派生した研究として超並列性を利用したGPU実装への拡張(IJHPCAに投稿中)、テネシー大学のDongarra研究室との共同研究でPaRSECランタイムを用いた階層間の依存性の緩和(ICPPに投稿中)やLDL分解への拡張による電子状態計算における固有値解法への応用(ICPPに投稿中)などが挙げられる。
我们开发了多种新方法来执行大规模密集矩阵的高速并行分解,这在将二次优化应用于深度学习时是一个挑战。大小为 NxN 的稠密矩阵的 LU 分解需要 O(N^3) 的计算量,但通过使用 HSS 矩阵和 H 矩阵等分层低秩近似方法,计算复杂度可以降低到 O(NlogN) 或它可以减少到O(N)。然而,由于HSS矩阵使用弱容差条件,在高维问题中,非对角块的秩随着N的增加而增加,使其不再是O(N)方法。通过应用ULV分解的原理,块可以是通过消除依赖性以大规模并行方式计算。另外,虽然H矩阵使用了强许可条件,但其秩并没有增加,但即使使用ULV分解的原理,非对角密集块引起的填充也阻碍了大规模并行矩阵分解。在这项研究中,我们开发了一种 H^2-ULV 分解,它既具有 HSS-ULV 分解的并行性,又具有 H 矩阵的 O(N) 计算复杂度。 H^2 矩阵与 HSS 矩阵一样,共享行和列块的基础。然而,简单地共享基并不能防止密集块引起的填充,因此无法按原样进行大规模并行 LU 分解。因此,通过提前计算填充并将其包含在行和列块的基数中,可以在不更新共享基数的情况下重新压缩ULV分解过程中发生的填充,并且具有较强的容忍条件,但这在业界尚属首次。 world,我们实现了大规模并行 LU 分解。该成果被高性能计算领域顶级会议SC22接受。此外,作为源自这项研究的研究,我们已经扩展到使用大规模并行性的 GPU 实现(目前已提交给 IJHPCA),并在与田纳西大学 Dongarra 实验室的联合研究中使用 PaRSEC 运行时减轻了层间依赖性(目前已提交给 IJHPCA)。 ICPP)以及通过扩展到 LDL 分解在电子结构计算中应用特征值解(目前已提交给 ICPP)。

项目成果

期刊论文数量(14)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Recovering single precision accuracy from Tensor Cores while surpassing the FP32 theoretical peak performance
Iterative Refinement with Hierarchical Low-rank Preconditioners Using Mixed Precision
使用混合精度的分层低阶预处理器进行迭代细化
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hoang Dinh;L.;Aoyama;E.;Hiasa;M;Omote;H.;Kubota;S.;Kuboki;T.;Takigawa;M.;Thomas Spendlhofer
  • 通讯作者:
    Thomas Spendlhofer
深層学習における2次最適化の汎化性能の検証
深度学习二次优化泛化性能验证
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮本忠吉;伊藤剛;フィーリー真利奈;嶋田愛;中原英博; 澤井亨;仲田秀臣;大槻伸吾.;石井央,横田理央
  • 通讯作者:
    石井央,横田理央
Cache Optimization and Performance Modeling of Batched, Small, and Rectangular Matrix Multiplication on Intel, AMD, and Fujitsu Processors
Intel、AMD 和 Fujitsu 处理器上的批量、小型和矩形矩阵乘法的缓存优化和性能建模
Scalable Linear Time Dense Direct Solver for 3-D Problems Without Trailing Sub-Matrix Dependencies
用于 3D 问题的可扩展线性时间密集直接求解器,无需跟踪子矩阵依赖性
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Qianxiang Ma;Sameer Deshmukh;Rio Yokota
  • 通讯作者:
    Rio Yokota
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

横田 理央其他文献

Petascale Turbulence Simulation Using FMM
使用 FMM 进行千万亿级湍流模拟
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    成見 哲;T. Narumi;横田 理央;Rio Yokota;L. Barba;泰岡 顕治;K. Yasuoka
  • 通讯作者:
    K. Yasuoka

横田 理央的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('横田 理央', 18)}}的其他基金

階層的低ランク近似による高速・高精度な固有値計算と大規模電子状態計算への応用
分层低阶近似的高速高精度特征值计算及其在大规模电子结构计算中的应用
  • 批准号:
    23K24854
  • 财政年份:
    2024
  • 资助金额:
    $ 16.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Fast and accurate eigenvalue calculations by hierarchical low-rank approximation and its application to large-scale electronic structure calculations
分层低阶近似快速准确的特征值计算及其在大规模电子结构计算中的应用
  • 批准号:
    22H03598
  • 财政年份:
    2022
  • 资助金额:
    $ 16.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
エクサスケーラブルな大規模連立一次方程式の前処理としてのFMMの代数学的拡張
FMM 的代数扩展作为大规模线性方程组的可扩展预处理器
  • 批准号:
    15H06196
  • 财政年份:
    2015
  • 资助金额:
    $ 16.22万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up

相似海外基金

階層的低ランク近似による高速・高精度な固有値計算と大規模電子状態計算への応用
分层低阶近似的高速高精度特征值计算及其在大规模电子结构计算中的应用
  • 批准号:
    23K24854
  • 财政年份:
    2024
  • 资助金额:
    $ 16.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Linear Solvers for Machine Learning Hardware
用于机器学习硬件的线性求解器
  • 批准号:
    18H03248
  • 财政年份:
    2018
  • 资助金额:
    $ 16.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Algorithms and Applications of Nonnegative Matrix Factorization
非负矩阵分解的算法和应用
  • 批准号:
    15K20986
  • 财政年份:
    2015
  • 资助金额:
    $ 16.22万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了