基于关联性的分布式元数据存取优化研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61772486
  • 项目类别:
    面上项目
  • 资助金额:
    66.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0204.计算机系统结构与硬件技术
  • 结题年份:
    2021
  • 批准年份:
    2017
  • 项目状态:
    已结题
  • 起止时间:
    2018-01-01 至2021-12-31

项目摘要

In file systems, I/Os for accessing metadata account for more than half of all I/Os. Metadata access is one of the key factors for the performance of large scale distributed small-file systems. This project aims to study the layout of metadata in large scale distributed file systems, the load management and I/O optimization, to achieve efficient access of large-scale metadata, and further improve the system access performance. The main research contents and objectives are the follows. .(1) We study the mathematical models of several types of correlations among metadata, and design lightweight and efficient correlation identification algorithms. Based on the correlations of metadata, we implement efficient metadata distribution in a metadata cluster. We will also take advantage of correlations and prefetching to improve access efficiency of metadata. .(2) According to the characteristics of metadata and their correlations, we design lightweight and efficient deduplication and compression algorithms to improve memory reuse rate and reduce the swap of metadata between memory and external storage..(3) According to some features of massive amount of metadata, such as small size, large volume, etc, combining with the correlations of metadata, we design efficient erasure codes and implement them efficiently to reduce the volume of metadata for fault tolerance, and further reduce memory overhead and accelerate metadata access. .(4) We will build a prototype of distributed file system, and in it we will implement the metadata access optimization techniques to improve its overall I/O performance. Particularly, the overall I/O performance in file systems with limited memory space will be greatly improved.
在文件系统中,对元数据的I/O操作占全部I/O操作的一半以上。元数据存取是大型分布式小文件系统性能的关键因素之一。本项目研究大型分布式文件系统中元数据的布局、负载管理及I/O优化,实现大规模元数据的高效存取,提高系统访问性能。主要研究内容与目标有:(1)研究元数据几类关联性的数学模型及轻量级高效关联性识别算法,并利用元数据之间的关联性,在元数据服务器集群中合理布局元数据,结合预取技术提高元数据的存取效率;(2)针对元数据的特点,结合元数据的关联性,设计轻量级高效内存重删与压缩算法,提高内存复用率,减少元数据存取的内外存交换;(3)针对海量元数据粒度小、数据量大的特点,结合元数据的关联性,设计高效的纠删码并加以优化实现,降低元数据容错带来的内存开销,加速元数据的存取;(4)实现一个分布式文件原型系统,采用元数据优化技术,提高文件的读写性能。特别对内存受限的分布式系统,读写性能将有很大提升。

结项摘要

本项目在执行过程中,共发表论文33篇,其中CCF A类论文19篇,包括系统领域的顶级会议与期刊Fast’2021、Fast’2022、SOSP’2021、ATC’2021、ATC’2019、ATC’2018、ACM Transactions on Storage、IEEE TPDS、IEEE ToC等,CCF B类论文8篇,获批专利4项。培养毕业博士生5名、硕士生1名。相关工作成果基本都在开源的原型系统中得以实现,性能有明显提升,对产业界有一定的参考价值,并且与国内键值存储系统最好的PingCap公司有深度合作。.本项目资助的主要成果有:.1. 首次引入了文件间的引用关系所带来的元数据关联性,并应用到分布式文件系统的元数据预取策略中,实现了一套原型系统SMeta。相比于原生Ceph存储系统,针对不同的应用,SMeta访问元数据的I/O次数可以减少18.1%-78.6%。.2. 针对分布式元数据服务集群,提出了一种不均衡因子模型来准确地确定触发迁移与容忍不均衡的时机和迁移决策方案Lunule。相比于原生Ceph存储系统,Lunule整体吞吐量上取得了最高315.8%的提升。.3. 针对NVMe SSD和传统SSD/HDD混合存储结构,优化设计实现了键值存储系统SpanDB,对健值数据库软件栈进行了全面的适配性重构。SpanDB将原有RocksDB系统的吞吐量提高了8.8倍;与完全采用高端SSD的系统KVell相比,将KVell的延迟降低了2.3-21.6倍。.4. 设计了一个基于副本解耦的高性能分布式键值存储系统DEPART。DEPART采用哈希,计算并结合一致性哈希环对副本数据进行解耦,并对解耦出的主副本和冗余副本进行差异化存储。DEPART可将分布式键值存储系统Cassandra的读写性能分别提升1.4倍和2.5倍。.5. 设计并实现了一个并行分布式神经网络训练框架HiPress,包括梯度同步策略CASync与梯度压缩算法开发工具包CompLL。对比不带压缩的BytePS和Horovod-Ring,将训练速度提升18.3-106.4%;对比带压缩的BytePS-onebit和Ring-DGC,提升14.9-66.2%。

项目成果

期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(20)
专利数量(8)
Explicit Data Correlations-Directed Metadata Prefetching in Distributed File Systems
分布式文件系统中显式数据相关性定向元数据预取
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    IEEE Transactions on Parallel and Distributed Systems (TPDS)
  • 影响因子:
    --
  • 作者:
    Youxu Chen;Cheng Li;Min Lv;Xinyang Shao;Yongkun Li;Yinlong Xu
  • 通讯作者:
    Yinlong Xu
Deterministic Data Distribution for Efficient Recovery in Erasure-Coded Storage Systems
用于纠删码存储系统中高效恢复的确定性数据分布
  • DOI:
    10.1109/tpds.2020.2987837
  • 发表时间:
    2020-04
  • 期刊:
    IEEE Transactions on Parallel and Distributed Systems
  • 影响因子:
    5.3
  • 作者:
    Xu Liangliang;Lyu Min;Li Zhipeng;Li Yongkun;Xu Yinlong
  • 通讯作者:
    Xu Yinlong
A Data Layout and Fast Failure Recovery Scheme for Distributed Storage Systems With Mixed Erasure Codes
混合纠删码分布式存储系统的数据布局和快速故障恢复方案
  • DOI:
    10.1109/tc.2021.3105882
  • 发表时间:
    2021-08-18
  • 期刊:
    IEEE TRANSACTIONS ON COMPUTERS
  • 影响因子:
    3.7
  • 作者:
    Xu, Liangliang;Lyu, Min;Xu, Yinlong
  • 通讯作者:
    Xu, Yinlong
Enabling Efficient Updates in KV Storage via Hashing: Design and Performance Evaluation
通过哈希实现 KV 存储的高效更新:设计和性能评估
  • DOI:
    10.1145/3340287
  • 发表时间:
    2019
  • 期刊:
    ACM Transactions on Storage
  • 影响因子:
    1.7
  • 作者:
    Li Yongkun;Chan Helen H. W.;Lee Patrick P. C.;Xu Yinlong
  • 通讯作者:
    Xu Yinlong
Minimizing the Maximum Charging Delay of Multiple Mobile Chargers Under the Multi-Node Energy Charging Scheme
最小化多节点能量充电方案下多个移动充电器的最大充电延迟
  • DOI:
    10.1109/tmc.2020.2973979
  • 发表时间:
    2021-05-01
  • 期刊:
    IEEE TRANSACTIONS ON MOBILE COMPUTING
  • 影响因子:
    7.9
  • 作者:
    Xu, Wenzheng;Liang, Weifa;Zhang, Xinming
  • 通讯作者:
    Zhang, Xinming

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于两种子结构感知的社交网络Graphlets采样估计算法
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    计算机科学
  • 影响因子:
    --
  • 作者:
    赵倩倩;吕敏;许胤龙
  • 通讯作者:
    许胤龙
Ad hoc网络中基于网络编码的可靠组播
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    中国科学技术大学学报
  • 影响因子:
    --
  • 作者:
    许胤龙;詹成;李沛;罗文
  • 通讯作者:
    罗文
基于网络编码的分层媒体多播中的层速率分配优化
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    电子与信息学报
  • 影响因子:
    --
  • 作者:
    詹成;许胤龙;王青山;林晓斌
  • 通讯作者:
    林晓斌
基于网格和最近邻居的聚类算法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机辅助工程
  • 影响因子:
    --
  • 作者:
    孙广中;许胤龙;陈义如
  • 通讯作者:
    陈义如
有通信冲突的异构系统上的任务调度(英文)
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    中国科学技术大学学报
  • 影响因子:
    --
  • 作者:
    吴文涛;蒋韵联;许胤龙;孙广中
  • 通讯作者:
    孙广中

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

许胤龙的其他基金

属性感知的键值存储系统索引结构与缓存优化研究
  • 批准号:
    62172382
  • 批准年份:
    2021
  • 资助金额:
    59.00 万元
  • 项目类别:
    面上项目
属性感知的键值存储系统索引结构与缓存优化研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    59 万元
  • 项目类别:
    面上项目
容错存储系统的扩容问题研究
  • 批准号:
    61379038
  • 批准年份:
    2013
  • 资助金额:
    79.0 万元
  • 项目类别:
    面上项目
基于网络编码的分布式存储容错机制研究
  • 批准号:
    61073038
  • 批准年份:
    2010
  • 资助金额:
    34.0 万元
  • 项目类别:
    面上项目
基于网络编码的P2P系统中若干基本问题研究
  • 批准号:
    60773036
  • 批准年份:
    2007
  • 资助金额:
    26.0 万元
  • 项目类别:
    面上项目
WDM全光网中的路由及波长分配算法的研究
  • 批准号:
    60173048
  • 批准年份:
    2001
  • 资助金额:
    19.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码