云平台并行数据流程序的中间数据管理优化技术
项目介绍
AI项目解读
基本信息
- 批准号:61202065
- 项目类别:青年科学基金项目
- 资助金额:23.0万
- 负责人:
- 依托单位:
- 学科分类:F0202.系统软件、数据库与工业软件
- 结题年份:2015
- 批准年份:2012
- 项目状态:已结题
- 起止时间:2013-01-01 至2015-12-31
- 项目参与者:魏峻; 孙耀; 严慧; 许利杰; 朱锋; 张晓杰;
- 关键词:
项目摘要
Parallel dataflow programming frameworks (e.g., MapReduce, Dryad, Pig and Hive) have been widely applied in processing big data both in academy and industry. From the perspective of underlying system, a critical problem is how to manage the massive intermediate data which are generated during the execution of parallel dataflow programs. In practice, a large space of memory and disk will be occupied for storing intermediate data. Network overhead is common while transferring these massive intermediate data among distributed computing nodes. Fault-tolerant and fast recovery mechanisms are also needed to keep the high availability of these data. Furthermore, the sharing and elastic cloud platform increases the difficulty of intermediate data management since multiple parallel dataflow programs will run concurrently. How to store these diverse intermediate data from different programs and how to schedule the transferring of these data under different Service Level Agreements are two major challenges..This project aims to develop a new specific intermediate data management system considering various aspects such as data, resource utilization, fault-tolerance and performance. Firstly, we need to understand and delve into the characteristics of intermediate data. They are almost short-lived and accessed in the form of write-once-read-once. Other features (e.g., data size and distribution) follow the semantics of the concrete programs. Secondly, we will focus on intermediate data's cost-effective storage, reliable but efficient transmission and fault tolerance. Thirdly, we will build a new and actual storage system towards intermediate data based on distributed memory cache. Fourthly, we will present new schedule strategies of intermediate data transferring especially for concurrent parallel dataflow programs running in the cloud. Finally, we will integrated the system with Hadoop and evaluate its performance. We wish this project can improve run-time performance and fault-tolerance of cloud applications, and lead to new cloud programming paradigms.
并行数据流编程框架如MapReduce、Dryad、Pig等被广泛应用于处理日益增长的数据。并行数据流程序执行时产生海量的中间数据,占用大量存储资源。同时,中间数据分布式产生,需要在大量节点间进行传输。另外,中间数据的容错机制也严重影响系统性能。此外,大量并行数据流程序的并发运行于云平台,对中间数据管理的任务调度和资源管理提出挑战。.本课题充分考虑中间数据特殊读写模式、生命周期短、与应用语义密切相关的特点,在云平台背景下研究并行数据流程序的海量中间数据的存储、传输、容错的优化技术,包括:基于分布式协同缓存优化并行数据流程序的中间数据访问;QoS保障的中间数据传输调度策略;应用语义感知的中间数据容错策略。本课题将实现中间数据管理原型系统,并集成到Hadoop平台,同时通过实验评价其优化效果。本课题有利于优化基于并行数据流编程框架的云应用性能,并大大降低资源成本。
结项摘要
并行数据流编程框架如MapReduce、Spark、Dryad、Pig 等被广泛应用于处理日益增长的数据。并行数据流程序执行时产生海量的中间数据,占用大量存储资源。同时,中间数据分布式产生,需要在大量节点间进行传输。另外,中间数据的容错机制也严重影响系统性能。此外,大量并行数据流程序的并发运行于云平台,对中间数据管理的任务调度和资源管理提出挑战。.本课题主要从中间数据内存管理切入,研究中间数据的内存用量估算与预测技术,中间数据内存溢出错误诊断技术,并研发了MapReduce工作流系统,对所提出的关键技术进行验证,并开展了实际的推广应用。具体来讲,包含以下研究内容: .(1) 内存用量模型构建与用量估算:研究目的是构建应用的内存用量模型,量化应用的静态因素(数据、配置、用户代码)与动态内存用量的关系,并估算出新应用的内存用量。我们以数据流为中心构建了应用内存用量模型,模型包含数据流模型、框架内存用量模型和用户代码内存用量模型。为了解决如何在用户代码未知的情况下构建用户代码内存用量与其输入数据之间关系的问题,我们在用户代码模型中设计了生命周期敏感的内存用量监控方法。在内存用量模型的基础上,我们通过在小数据上运行应用来估算该应用在大数据集上的内存用量。.(2) 内存溢出错误的诊断方法:研究目的是设计出内存溢出错误诊断方法及工具。本文基于内存用量模型设计了一个内存分析器Mprof。Mprof可以自动建立应用静态因素与动态内存用量之间的关系,方法是重建应用数据流,重建用户代码内存使用历史信息,并对两者进行关联分析。Mprof也包含定量诊断规则,这些规则根据应用静态因素与动态内存用量之间的关系自底向上定位内存溢出错误相关的代码段,错误相关的数据,以及不恰当的配置参数。.(3) MapReduce流程建模与执行系统:研究目的是充分考虑中间数据特点,设计一种优化的MapReduce工作流模型,用于实现多个MapReduce任务的并行执行与中间数据流转。提出一个MapReduce逻辑模型,并研究算法实现向Oozie工作流模型的自动翻译技术。研发了可视化的工作,支持用户设计MapReduce工作流模型,并执行。可用于复杂大数据预处理与机器学习应用。.本课题有利于优化基于并行数据流编程框架的云应用性能,并大大降低资源成本。
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(7)
专利数量(0)
基于组件的大数据分析服务平台
- DOI:--
- 发表时间:2014
- 期刊:计算机科学
- 影响因子:--
- 作者:赵薇;刘杰;叶丹
- 通讯作者:叶丹
一种云存储服务客户端增量同步算法
- DOI:--
- 发表时间:2014
- 期刊:计算机系统应用
- 影响因子:--
- 作者:吕瀛;刘杰;马志柔;叶丹
- 通讯作者:叶丹
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
Influencesof Organic Depressants on the Floatability of Fine Cassiterite
有机抑制剂对细锡石可浮性的影响
- DOI:--
- 发表时间:2016-11-18
- 期刊:Physical Review B
- 影响因子:3.7
- 作者:韩跃新;宫贵臣;刘杰
- 通讯作者:刘杰
2013年4月20日四川芦山 M 7.0级地震介绍
- DOI:10.6038/cjg20130434
- 发表时间:2013-04-20
- 期刊:2011 International Conference on Cloud and Service Computing
- 影响因子:--
- 作者:刘杰;Liu Jie;易桂喜;Yi Gui;张致伟;Zhang Zhi;官致君;Guan Zhi;阮祥;Ruan Xiang;龙锋;Long Feng;杜方;Du Fang
- 通讯作者:Du Fang
Effect of blood-stage treatment on cytokine IFN-?,IL-4,IL-10 and IL-17 of patients with psoriasis vulgaris in the periods
血期治疗对寻常型银屑病患者细胞因子IFN-γ、IL-4、IL-10、IL-17的影响
- DOI:10.3760/cma.j.issn.1673-4246.2014.08.006
- 发表时间:2014-08-30
- 期刊:Traditional Chinese Medicine
- 影响因子:--
- 作者:何翔;刘杰;徐平;潘祥龙;张慧敏
- 通讯作者:张慧敏
一维热扩散方程的格子 Boltzmann 方法分析
- DOI:10.1088/1757-899x/8/1/012018
- 发表时间:2015
- 期刊:节能技术
- 影响因子:--
- 作者:袁兆成;齐晗兵;李栋;刘杰
- 通讯作者:刘杰
重金属超积累植物研究进展
- DOI:--
- 发表时间:--
- 期刊:生态科学进展,3:215-235, 2007
- 影响因子:--
- 作者:刘杰;段昌群
- 通讯作者:段昌群
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
刘杰的其他基金
无服务器架构机器学习的计算模型与系统框架研究
- 批准号:
- 批准年份:2019
- 资助金额:60 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}