约束驱动集合相似大数据高效能连接关键技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61572373
- 项目类别:面上项目
- 资助金额:66.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2019
- 批准年份:2015
- 项目状态:已结题
- 起止时间:2016-01-01 至2019-12-31
- 项目参与者:许先斌; 张锡宁; 李想; 吴文李; 谢晨阳; 李鸯; 程佳宇; 谭薇薇; 邓凌风;
- 关键词:
项目摘要
As a tolerance induced all pairs of qualification between two object sets, similarity joins ask to find input pairs that are within a certain deviation scope from each other according to some distance measure. It becomes more widely practiced in the world of big data where the data model and retrieval pattern contain the associated or the correlated constraints. Nevertheless, suffering from the bottleneck of the data exchange and the brute-force enumeration, the existing parallel computational techniques can hardly translate these essential fuzzy logics into the efficiently divide-and-conquer tasks, especially when the fine-gained partitioning requirements encounter the extensive overlap among the skewed data. It is of interesting to exploit those constraints to shore up the data layout and query optimization, so as to improve the data locality as well as the pruning power, especially in the massive set-similarity join paradigm. Towards both high-throughput exchange and high-productivity computation, this project will firstly launch the MapReduce optimizations along with the cascaded storage and the reduced execution models, mainly concerning the band join condition under foreign key reference constraint. By presenting the Reduce-oriented load balance strategy and enforcing it onto the gradually weak constraints, this project planning paper is proposed to spread the similarity join researches in terms of the topological properties and the positional tokens. As for the spatial join in the update intensive context, it introduces the atomic operations and the cross-block GPU synchronization techniques to the data-centered join strategies by virtue of the grid snapshot. Towards the nonmetric string similarity join, it will further focus on the optimal combinational prefixes filtering topics, covering the optimal tokens selection, the compression of the grouping exchange and the high-efficiency pruning strategies. Finally, for the massive parallel environments, this project will extract the coherent theoretical achievements and give a suite of robust and scalable core techniques for efficiently handling the different level of constraints over the similarity join.
作为互联网时代极具潜力的数据处理手段,相似连接在数据清洗、分析、挖掘和集成等方向具有广阔的应用和研究价值,已成为数据库和知识工程的交叉研究热点。本项目以数据及查询的关联约束为驱动,将交换高通量和计算高效能作为目标,对典型集合数据展开适用于大规模并行的优化布局方法研究,并力图为相似连接提供高效的查询剪枝执行手段。项目面向层次约束构建研究体系,首先基于关系约束在MapReduce下进行数据级联存储,借助流水线和多路连接深入探索相似连接的任务分割与负载均衡策略;研究论证频繁更新下数据为中心的公制距离连接技术,以格网分区与优化映射为基本途径,展开GPU下空间约束剪枝和跨Block同步策略研究;最后以最优符号组合剪枝为目标,对资源平衡视角下符号组合选择策略、分组与前缀压缩交换技术及其过滤方法进行重点研究。借助项目研究的实施,初步构建出一套健壮、高效和可扩展的面向大数据不同约束层次的关联优化核心技术。
结项摘要
本项目以数据及查询的关联约束为驱动,将交换高通量和计算高效能作为目标,对典型集合数据展开适用于大规模并行的优化布局方法研究,并力图为相似连接提供高效的查询剪枝执行手段。项目面向层次约束构建研究体系,首先基于关系约束在MapReduce下进行数据级联存储,借助流水线和多路连接深入探索相似连接的任务分割与负载均衡策略;研究论证频繁更新下数据为中心的公制距离连接技术,以格网分区与优化映射为基本途径,展开GPU下空间约束剪枝和跨Block同步策略研究;最后以最优符号组合剪枝为目标,对资源平衡视角下符号组合选择策略、分组与前缀压缩交换技术及其过滤方法进行重点研究。借助项目研究的实施,初步构建出一套健壮、高效和可扩展的面向大数据不同约束层次的关联优化核心技术。截止结题日期,项目组发表CCF-A类论文2篇,CCF-B类论文3篇,CCF-C类论文1篇,其他国内核心期刊论文若干。邀请了国际著名的数据库和人工智能专家进行不同级别的专题讲座10余次。项目产生的研究成果已开始初步应用于国家重点研发计划和深圳鹏程实验室的前沿应用项目上,较为显著地推动了文本处理和多源异构大数据的管理和分析。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(2)
基于DTW相似判定的周期性时间序列预测方法
- DOI:--
- 发表时间:2019
- 期刊:计算机科学
- 影响因子:--
- 作者:李文海;程佳宇;谢晨阳
- 通讯作者:谢晨阳
Similarity query support in big data management systems
大数据管理系统中的相似性查询支持
- DOI:10.1016/j.is.2019.101455
- 发表时间:2020-02-01
- 期刊:INFORMATION SYSTEMS
- 影响因子:3.7
- 作者:Kim, Taewoo;Li, Wenhai;Li, Chen
- 通讯作者:Li, Chen
一种基于GPU的移动对象并行处理框架
- DOI:--
- 发表时间:2016
- 期刊:计算机应用与软件
- 影响因子:--
- 作者:韦春丹;龚奕利;李文海
- 通讯作者:李文海
CORES: Towards Scan-Optimized Columnar Storage for Nested Records
CORES:面向嵌套记录的扫描优化列式存储
- DOI:10.1145/3321704
- 发表时间:2019
- 期刊:ACM Transactions on Storage
- 影响因子:1.7
- 作者:WEIDONG WEN;YANG LI;WEN HAI LI;LINGFENG DENG;YANXIANG HE
- 通讯作者:YANXIANG HE
基于HDP的监督多标签文本分类研究
- DOI:--
- 发表时间:2017
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:谢晨阳;卢焱鑫
- 通讯作者:卢焱鑫
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
分布式加速事务处理引擎技术及实现
- DOI:--
- 发表时间:--
- 期刊:计算机工程与设计
- 影响因子:--
- 作者:李文海;冯玉才;马晓鸣
- 通讯作者:马晓鸣
连续Vague集
- DOI:--
- 发表时间:--
- 期刊:华中科技大学学报
- 影响因子:--
- 作者:吕泽华;陈传波;李文海
- 通讯作者:李文海
基于粗集理论的视图分层更新方法
- DOI:--
- 发表时间:--
- 期刊:计算机科学
- 影响因子:--
- 作者:李文海;冯玉才;马晓鸣;尹建章
- 通讯作者:尹建章
海龙黄精散治疗微波职业暴露男性不育症的临床观察
- DOI:--
- 发表时间:2012
- 期刊:北京中医药大学学报
- 影响因子:--
- 作者:毕焕洲;朱明;李文海;BI Huan-zhou1,ZHU Ming2,LI Wen-hai2(1 Department o;2 Department of Andrology,Dalian Jianguo Hospital)
- 通讯作者:2 Department of Andrology,Dalian Jianguo Hospital)
MOA泄漏电流无线采集系统的低功耗设计
- DOI:--
- 发表时间:--
- 期刊:华中科技大学学报(自然科学版)科技大学
- 影响因子:--
- 作者:陈晓飞;李文海;邹雪城;林双喜
- 通讯作者:林双喜
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
李文海的其他基金
粗监督时序轨道分析若干关键技术研究
- 批准号:60903035
- 批准年份:2009
- 资助金额:18.0 万元
- 项目类别:青年科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}