CAREER: Avoiding Achilles' Heel in Exascale Computing with Distributed File Systems
职业:使用分布式文件系统避免百亿亿次计算中的致命弱点
基本信息
- 批准号:1054974
- 负责人:
- 金额:$ 45万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2011
- 资助国家:美国
- 起止时间:2011-01-01 至 2018-06-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Exascale (i.e. 1018 operations/sec) computers will enable the unraveling of significant scientific mysteries, covering many domains (e.g. weather modeling, national security, energy, and drug discovery). Predictions are that exascales will be reached in 2019, with millions of compute-nodes and billions of threads of execution. The current state-of-the-art storage in high-end computing (HEC), in which storage is segregated from compute-nodes and connected by a network (e.g. parallel filesystems), will not scale with the expected exponential growth in concurrency. At exascales, basic functionality (e.g. booting, check-pointing, metadata/data access) at high concurrency levels will suffer poor performance, and combined with system mean-time-to-failure in hours, will lead to a performance collapse. The investigator envisions future HEC systems to be designed with non-volatile memory on every compute node, and every node to actively participate in the metadata and data management. This work aims to: 1) design, analyze, and implement a distributed data structure (D3) optimized for HEC, to be used for distributed metadata management; 2) design, analyze, and implement a distributed filesystem (FDFS) optimized for a subset of important high-performance computing (HPC) as well as many-task computing (MTC) workloads, and scalable to millions of nodes; and 3) evaluate work with real workloads, applications, and simulations up to exascales. The results of this work has the potential to make exascale computing more tractable, touching virtually all disciplines in HEC, fueling scientific discovery and economic development at the national level. The HEC knowledgebase will extend into commodity systems as the fastest machines generally become mainstream systems in five to seven years. This work can also open doors for research in radical parallel programming paradigms (e.g. MTC) that rely on scalable storage infrastructure.
百亿亿级(即每秒 1018 次操作)计算机将能够解开重大科学谜团,涵盖许多领域(例如天气建模、国家安全、能源和药物发现)。预测 2019 年将达到百亿亿次,拥有数百万个计算节点和数十亿个执行线程。当前高端计算 (HEC) 中最先进的存储,其中存储与计算节点分离并通过网络(例如并行文件系统)连接,将无法随着并发性的预期指数增长而扩展。在百亿亿级计算中,高并发级别的基本功能(例如启动、检查点、元数据/数据访问)将遭受性能不佳的影响,再加上以小时为单位的系统平均故障时间,将导致性能崩溃。研究人员设想未来的 HEC 系统将在每个计算节点上设计有非易失性存储器,并且每个节点都积极参与元数据和数据管理。本工作的目的是:1)设计、分析和实现针对 HEC 优化的分布式数据结构(D3),用于分布式元数据管理; 2) 设计、分析和实现分布式文件系统 (FDFS),该系统针对重要的高性能计算 (HPC) 和多任务计算 (MTC) 工作负载的子集进行了优化,并可扩展至数百万个节点; 3) 使用真实的工作负载、应用程序和高达百亿亿次的模拟来评估工作。这项工作的成果有可能使百亿亿级计算变得更加容易处理,几乎涉及 HEC 的所有学科,推动国家层面的科学发现和经济发展。 HEC 知识库将扩展到商品系统,因为最快的机器通常会在五到七年内成为主流系统。这项工作还可以为依赖可扩展存储基础设施的激进并行编程范例(例如 MTC)的研究打开大门。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Ioan Raicu其他文献
Ioan Raicu的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Ioan Raicu', 18)}}的其他基金
Collaborative Research: REU Site: BigDataX: From theory to practice in Big Data computing at eXtreme scales
合作研究:REU 网站:BigDataX:极限规模大数据计算从理论到实践
- 批准号:
2150500 - 财政年份:2022
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
Collaborative Research: OAC Core: Enabling Extremely Fine-grained Parallelism on Modern Many-core Architectures
合作研究:OAC Core:在现代多核架构上实现极其细粒度的并行性
- 批准号:
2107548 - 财政年份:2021
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
REU Site: Collaborative Research: BigDataX: From theory to practice in Big Data computing at eXtreme scales
REU 网站:协作研究:BigDataX:极限规模大数据计算从理论到实践
- 批准号:
1757964 - 财政年份:2018
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
CRI: II-NEW: MYSTIC: Programmable Systems Research Testbed to Explore a Stack-WIde Adaptive System fabriC
CRI:II-新:神秘:探索全栈自适应系统结构的可编程系统研究测试台
- 批准号:
1730689 - 财政年份:2017
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
REU Site: BigDataX: From Theory to Practice in Big Data Computing at Extreme Scales
REU 网站:BigDataX:超大规模大数据计算从理论到实践
- 批准号:
1461260 - 财政年份:2015
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
Student Travel Support for ACM HPDC 2011
ACM HPDC 2011 学生旅行支持
- 批准号:
1114379 - 财政年份:2011
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
相似国自然基金
YTHDC1介导的糖酵解促进肝细胞癌逃避免疫监视的机制研究
- 批准号:82372851
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
膜蛋白Mhp271通过降解宿主GRP78介导猪肺炎支原体逃避免疫吞噬的分子机制
- 批准号:32302878
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
马尔尼菲篮状菌结合CD86蛋白逃避免疫防御的机制
- 批准号:
- 批准年份:2022
- 资助金额:35 万元
- 项目类别:地区科学基金项目
5C理念下基层医疗卫生服务影响农村高费用患者可避免住院的机制研究
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
广义置换上的模式避免
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
がん幹細胞能維持と免疫回避微小環境を誘導する機構解明と新規治療法の開発
阐明维持癌症干细胞能力和诱导免疫逃避微环境的机制并开发新的治疗方法
- 批准号:
24K11915 - 财政年份:2024
- 资助金额:
$ 45万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
肝細胞癌のWnt5aを介した免疫回避機構の解明と複合免疫治療への応用
Wnt5a介导的肝细胞癌免疫逃避机制的阐明及其在联合免疫治疗中的应用
- 批准号:
24K11098 - 财政年份:2024
- 资助金额:
$ 45万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
TGF-β/Smad3/STINGを介した抗腫瘍免疫回避機序の解明
阐明TGF-β/Smad3/STING介导的抗肿瘤免疫逃避机制
- 批准号:
24K10282 - 财政年份:2024
- 资助金额:
$ 45万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
自然免疫応答毒性を回避する2本鎖核酸医薬技術の創生
创建避免先天免疫反应毒性的双链核酸药物技术
- 批准号:
24K18342 - 财政年份:2024
- 资助金额:
$ 45万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
進化疫学の新概念「メタR0」を用いた病原体の免疫逃避プロセスの研究
利用进化流行病学新概念“Meta-R0”研究病原体的免疫逃逸过程
- 批准号:
23K27218 - 财政年份:2024
- 资助金额:
$ 45万 - 项目类别:
Grant-in-Aid for Scientific Research (B)