基于关联性的分布式元数据存取优化研究
项目介绍
AI项目解读
基本信息
- 批准号:61772486
- 项目类别:面上项目
- 资助金额:66.0万
- 负责人:
- 依托单位:
- 学科分类:F0204.计算机系统结构与硬件技术
- 结题年份:2021
- 批准年份:2017
- 项目状态:已结题
- 起止时间:2018-01-01 至2021-12-31
- 项目参与者:李永坤; 梁杰; 郭帆; 王昕; 陈友旭; 白有辉; 刘军明; 陈浩; 魏舒展;
- 关键词:
项目摘要
In file systems, I/Os for accessing metadata account for more than half of all I/Os. Metadata access is one of the key factors for the performance of large scale distributed small-file systems. This project aims to study the layout of metadata in large scale distributed file systems, the load management and I/O optimization, to achieve efficient access of large-scale metadata, and further improve the system access performance. The main research contents and objectives are the follows. .(1) We study the mathematical models of several types of correlations among metadata, and design lightweight and efficient correlation identification algorithms. Based on the correlations of metadata, we implement efficient metadata distribution in a metadata cluster. We will also take advantage of correlations and prefetching to improve access efficiency of metadata. .(2) According to the characteristics of metadata and their correlations, we design lightweight and efficient deduplication and compression algorithms to improve memory reuse rate and reduce the swap of metadata between memory and external storage..(3) According to some features of massive amount of metadata, such as small size, large volume, etc, combining with the correlations of metadata, we design efficient erasure codes and implement them efficiently to reduce the volume of metadata for fault tolerance, and further reduce memory overhead and accelerate metadata access. .(4) We will build a prototype of distributed file system, and in it we will implement the metadata access optimization techniques to improve its overall I/O performance. Particularly, the overall I/O performance in file systems with limited memory space will be greatly improved.
在文件系统中,对元数据的I/O操作占全部I/O操作的一半以上。元数据存取是大型分布式小文件系统性能的关键因素之一。本项目研究大型分布式文件系统中元数据的布局、负载管理及I/O优化,实现大规模元数据的高效存取,提高系统访问性能。主要研究内容与目标有:(1)研究元数据几类关联性的数学模型及轻量级高效关联性识别算法,并利用元数据之间的关联性,在元数据服务器集群中合理布局元数据,结合预取技术提高元数据的存取效率;(2)针对元数据的特点,结合元数据的关联性,设计轻量级高效内存重删与压缩算法,提高内存复用率,减少元数据存取的内外存交换;(3)针对海量元数据粒度小、数据量大的特点,结合元数据的关联性,设计高效的纠删码并加以优化实现,降低元数据容错带来的内存开销,加速元数据的存取;(4)实现一个分布式文件原型系统,采用元数据优化技术,提高文件的读写性能。特别对内存受限的分布式系统,读写性能将有很大提升。
结项摘要
本项目在执行过程中,共发表论文33篇,其中CCF A类论文19篇,包括系统领域的顶级会议与期刊Fast’2021、Fast’2022、SOSP’2021、ATC’2021、ATC’2019、ATC’2018、ACM Transactions on Storage、IEEE TPDS、IEEE ToC等,CCF B类论文8篇,获批专利4项。培养毕业博士生5名、硕士生1名。相关工作成果基本都在开源的原型系统中得以实现,性能有明显提升,对产业界有一定的参考价值,并且与国内键值存储系统最好的PingCap公司有深度合作。.本项目资助的主要成果有:.1. 首次引入了文件间的引用关系所带来的元数据关联性,并应用到分布式文件系统的元数据预取策略中,实现了一套原型系统SMeta。相比于原生Ceph存储系统,针对不同的应用,SMeta访问元数据的I/O次数可以减少18.1%-78.6%。.2. 针对分布式元数据服务集群,提出了一种不均衡因子模型来准确地确定触发迁移与容忍不均衡的时机和迁移决策方案Lunule。相比于原生Ceph存储系统,Lunule整体吞吐量上取得了最高315.8%的提升。.3. 针对NVMe SSD和传统SSD/HDD混合存储结构,优化设计实现了键值存储系统SpanDB,对健值数据库软件栈进行了全面的适配性重构。SpanDB将原有RocksDB系统的吞吐量提高了8.8倍;与完全采用高端SSD的系统KVell相比,将KVell的延迟降低了2.3-21.6倍。.4. 设计了一个基于副本解耦的高性能分布式键值存储系统DEPART。DEPART采用哈希,计算并结合一致性哈希环对副本数据进行解耦,并对解耦出的主副本和冗余副本进行差异化存储。DEPART可将分布式键值存储系统Cassandra的读写性能分别提升1.4倍和2.5倍。.5. 设计并实现了一个并行分布式神经网络训练框架HiPress,包括梯度同步策略CASync与梯度压缩算法开发工具包CompLL。对比不带压缩的BytePS和Horovod-Ring,将训练速度提升18.3-106.4%;对比带压缩的BytePS-onebit和Ring-DGC,提升14.9-66.2%。
项目成果
期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(20)
专利数量(8)
Explicit Data Correlations-Directed Metadata Prefetching in Distributed File Systems
分布式文件系统中显式数据相关性定向元数据预取
- DOI:--
- 发表时间:2019
- 期刊:IEEE Transactions on Parallel and Distributed Systems (TPDS)
- 影响因子:--
- 作者:Youxu Chen;Cheng Li;Min Lv;Xinyang Shao;Yongkun Li;Yinlong Xu
- 通讯作者:Yinlong Xu
Deterministic Data Distribution for Efficient Recovery in Erasure-Coded Storage Systems
用于纠删码存储系统中高效恢复的确定性数据分布
- DOI:10.1109/tpds.2020.2987837
- 发表时间:2020-04
- 期刊:IEEE Transactions on Parallel and Distributed Systems
- 影响因子:5.3
- 作者:Xu Liangliang;Lyu Min;Li Zhipeng;Li Yongkun;Xu Yinlong
- 通讯作者:Xu Yinlong
A Data Layout and Fast Failure Recovery Scheme for Distributed Storage Systems With Mixed Erasure Codes
混合纠删码分布式存储系统的数据布局和快速故障恢复方案
- DOI:10.1109/tc.2021.3105882
- 发表时间:2021-08-18
- 期刊:IEEE TRANSACTIONS ON COMPUTERS
- 影响因子:3.7
- 作者:Xu, Liangliang;Lyu, Min;Xu, Yinlong
- 通讯作者:Xu, Yinlong
Enabling Efficient Updates in KV Storage via Hashing: Design and Performance Evaluation
通过哈希实现 KV 存储的高效更新:设计和性能评估
- DOI:10.1145/3340287
- 发表时间:2019
- 期刊:ACM Transactions on Storage
- 影响因子:1.7
- 作者:Li Yongkun;Chan Helen H. W.;Lee Patrick P. C.;Xu Yinlong
- 通讯作者:Xu Yinlong
Minimizing the Maximum Charging Delay of Multiple Mobile Chargers Under the Multi-Node Energy Charging Scheme
最小化多节点能量充电方案下多个移动充电器的最大充电延迟
- DOI:10.1109/tmc.2020.2973979
- 发表时间:2021-05-01
- 期刊:IEEE TRANSACTIONS ON MOBILE COMPUTING
- 影响因子:7.9
- 作者:Xu, Wenzheng;Liang, Weifa;Zhang, Xinming
- 通讯作者:Zhang, Xinming
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于两种子结构感知的社交网络Graphlets采样估计算法
- DOI:--
- 发表时间:2019
- 期刊:计算机科学
- 影响因子:--
- 作者:赵倩倩;吕敏;许胤龙
- 通讯作者:许胤龙
Ad hoc网络中基于网络编码的可靠组播
- DOI:--
- 发表时间:--
- 期刊:中国科学技术大学学报
- 影响因子:--
- 作者:许胤龙;詹成;李沛;罗文
- 通讯作者:罗文
基于网络编码的分层媒体多播中的层速率分配优化
- DOI:--
- 发表时间:--
- 期刊:电子与信息学报
- 影响因子:--
- 作者:詹成;许胤龙;王青山;林晓斌
- 通讯作者:林晓斌
基于网格和最近邻居的聚类算法
- DOI:--
- 发表时间:--
- 期刊:计算机辅助工程
- 影响因子:--
- 作者:孙广中;许胤龙;陈义如
- 通讯作者:陈义如
有通信冲突的异构系统上的任务调度(英文)
- DOI:--
- 发表时间:--
- 期刊:中国科学技术大学学报
- 影响因子:--
- 作者:吴文涛;蒋韵联;许胤龙;孙广中
- 通讯作者:孙广中
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
许胤龙的其他基金
属性感知的键值存储系统索引结构与缓存优化研究
- 批准号:62172382
- 批准年份:2021
- 资助金额:59.00 万元
- 项目类别:面上项目
属性感知的键值存储系统索引结构与缓存优化研究
- 批准号:
- 批准年份:2021
- 资助金额:59 万元
- 项目类别:面上项目
容错存储系统的扩容问题研究
- 批准号:61379038
- 批准年份:2013
- 资助金额:79.0 万元
- 项目类别:面上项目
基于网络编码的分布式存储容错机制研究
- 批准号:61073038
- 批准年份:2010
- 资助金额:34.0 万元
- 项目类别:面上项目
基于网络编码的P2P系统中若干基本问题研究
- 批准号:60773036
- 批准年份:2007
- 资助金额:26.0 万元
- 项目类别:面上项目
WDM全光网中的路由及波长分配算法的研究
- 批准号:60173048
- 批准年份:2001
- 资助金额:19.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}