集群环境下的天体光谱离群数据挖掘与性能优化
项目介绍
AI项目解读
基本信息
- 批准号:61572343
- 项目类别:面上项目
- 资助金额:64.0万
- 负责人:
- 依托单位:
- 学科分类:F0607.知识表示与处理
- 结题年份:2019
- 批准年份:2015
- 项目状态:已结题
- 起止时间:2016-01-01 至2019-12-31
- 项目参与者:秦啸; 荀亚玲; 赵旭俊; 庞宁; 王琢; 张超伟; 于晓龙;
- 关键词:
项目摘要
Centering on the key scientific problem being to solve“parallel mining theory and method of outliers from astronomical spectra data”,and making fully use of the strong data handling capacity of cluster system and MapReduce programming model,the project is to make deep research on the data mining method of astronomical spectra data and performance optimization of cluster system.The main research works are as follows:measure and search method of relative subspace oriented outliers,a related subspace and contextual information,a related subspace based contextual outlier mining algorithm and its parallelization,energy-driven data placement strategy,data placement strategy for load balancing,task scheduling algorithm of dynamic data placement,the dynamic weighted Shuffle strategy based on the feeback of the computing nodes,and outliers mining prototype system of astronomical spectra data.The project not only provides a new method and technology for mining unknown and special celestial objects from the large quantity of high-dimensional data,and further improves the scientific output of LAMOST.In addition,the project also offers an effective new method of outlier mining,as well as the realization approach of cluster system and performance optimization of programming model.
本项目围绕拟解决的关键科学问题“从天体光谱数据中,并行挖掘离群数据的理论和方法”,充分利用集群系统和MapReduce编程模型强大的数据处理能力,拟对天体光谱离群数据挖掘方法与编程模型性能优化进行深入研究。主要研究内容包括:面向离群数据的相关子空间度量与搜索、相关子空间与上下文有关信息的定义、相关子空间中的上下文有关离群数据挖掘算法及其并行化、能量驱动的数据放置策略、负载均衡的数据放置策略、动态数据放置的任务调度算法、基于计算结点反馈的动态权值Shuffle策略、天体光谱数据离群挖掘原型系统等。该项目研究不仅为实现从高维、海量天体光谱数据中挖掘未知和特殊的天体,进一步提高LAMOST的科学产出,拟提供一种新方法和新技术,同时也为海量高维数据分析处理,拟提供有效的离群数据挖掘新方法,以及集群系统与编程模型性能优化的实现途径。
结项摘要
本项目以国家重大科学工程LAMOST为应用背景,围绕拟解决的关键科学问题“从天体光谱数据中,并行挖掘离群数据的理论和方法”,充分利用集群系统和MapReduce/SPARK编程模型处理大型计算问题的能力,对海量高维天体光谱数据挖掘方法及技术进行了深入、系统的研究与探索,已圆满完成了研究内容,取得良好的研究成果,达到了预期研究目标和效果。所取得的重要成果包括:提出了一种基于相关子空间的上下文离群数据挖掘算法,以及一种MapReduce编程模型下的上下文离群数据并行挖掘算法,该算法所依据相关子空间属性信息,有效地提高离群数据的可解释性和可理解性;提出了一种基于加权特征分组的离群数据挖掘方法,以及一种基于Spark平台的处理高维海量数据集的并行框架,并采用RDD缓存、参数调优和数据放置等性能优优化策略,进一步提高了POS算法的性能;提出了一种基于属性相关性分析的局部离群数据检测算法,以及一种基于MapReduce的上下文离群数据并行检测算法,并利用构成稀疏子空间的属性信息,给出了相应的离群对象解释;针对并行kNN-join操作中出现的数据倾斜现象,提出了一种新的数据划分方法,有效地缓解负载不平衡问题;采用基于相关子空间的离群挖掘方法,从LAMOST DR3星系光谱数据中获得的离群数据挖掘结果中,针对呈现出多种稀有特征的光谱J140242.45+092049.8进行了深入特征分析等。其研究成果不仅能够实现从海量高维天体光谱数据中挖掘未知的、特殊的天体,进一步提高LAMOST的科学产出,而且也为大数据分析处理,提供有效的离群数据挖掘新方法、新算法以及有效的并行化实现途径。该项目所取得的成果已在《IEEE TPDDS》、《IEEE TSMC: Systems》、《Information Sciences》、ICDE等国内外学术刊物和学术会议上,已发表与录用学术论文14篇,其中:CCF 推荐的A类期刊和A类国际会议各1篇、B类期刊1篇、C类期刊3篇;IEEE汇刊3篇;SCI期刊9篇、EI刊物 2 篇。
项目成果
期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(1)
专利数量(0)
高斯混合模型下的相关子空间与离群数据挖掘
- DOI:--
- 发表时间:2018
- 期刊:小型微型计算机系统
- 影响因子:--
- 作者:樊盼盼;张继福
- 通讯作者:张继福
LOMA: A local outlier mining algorithm based on attribute relevance analysis
LOMA:一种基于属性相关性分析的局部异常值挖掘算法
- DOI:10.1016/j.eswa.2017.05.009
- 发表时间:2017
- 期刊:Expert Systems with Applications
- 影响因子:8.5
- 作者:Zhao Xujun;Zhang Jifu;Qin Xiao
- 通讯作者:Qin Xiao
Feature grouping-based parallel outlier mining of categorical data using spark
使用 Spark 对分类数据进行基于特征分组的并行异常值挖掘
- DOI:10.1101/377432
- 发表时间:2019
- 期刊:Information Sciences
- 影响因子:8.1
- 作者:Li Junli;Zhang Jifu;Qin Xiao;Xun Yaling
- 通讯作者:Xun Yaling
一种基于多属性权重的分类数据子空间聚类算法
- DOI:--
- 发表时间:2018
- 期刊:自动化学报
- 影响因子:--
- 作者:庞宁;张继福;秦啸
- 通讯作者:秦啸
Parallel mining of contextual outlier using sparse subspace
使用稀疏子空间并行挖掘上下文异常值
- DOI:10.1016/j.eswa.2019.02.020
- 发表时间:2019
- 期刊:Expert Systems with Applications
- 影响因子:8.5
- 作者:Zhao Xujun;Zhang Jifu;Qin Xiao;Cai Jianghui;Ma Yang
- 通讯作者:Ma Yang
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于MapReduce与相关子空间的局部离群数据挖掘算法
- DOI:--
- 发表时间:2015
- 期刊:软件学报
- 影响因子:--
- 作者:张继福;李永红;秦啸;荀亚玲
- 通讯作者:荀亚玲
LAMOST离群光谱J140242.45+092049.8特征分析
- DOI:--
- 发表时间:--
- 期刊:光谱学与光谱分析
- 影响因子:--
- 作者:杨海峰;蔡江辉;张继福;罗阿理;赵旭俊
- 通讯作者:赵旭俊
基于形式概念分析的图像场景语义标注模型
- DOI:--
- 发表时间:2015
- 期刊:计算机应用
- 影响因子:--
- 作者:张素兰;张继福;胡立华;褚萌
- 通讯作者:褚萌
一种面向枢纽现象的离群数据检测算法
- DOI:--
- 发表时间:2020
- 期刊:小型微型计算机系统
- 影响因子:--
- 作者:马文强;赵旭俊;张继福;饶元淇
- 通讯作者:饶元淇
A CL-BASED HIERARCHICAL SCENE CLASSIFICATION MODEL
基于CL的层次场景分类模型
- DOI:--
- 发表时间:2015
- 期刊:ICIC Express Letters
- 影响因子:--
- 作者:张素兰;张继福;胡立华
- 通讯作者:胡立华
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
张继福的其他基金
面向天体光谱大数据分析的属性分组加权离群检测研究
- 批准号:62172293
- 批准年份:2021
- 资助金额:60 万元
- 项目类别:面上项目
高维海量恒星光谱数据的并行子空间聚类分析
- 批准号:61876122
- 批准年份:2018
- 资助金额:64.0 万元
- 项目类别:面上项目
海量高维天体光谱数据挖掘及其并行化研究
- 批准号:61272263
- 批准年份:2012
- 资助金额:80.0 万元
- 项目类别:面上项目
面向LAMOST天文光谱特征线的数据挖掘方法研究
- 批准号:61073145
- 批准年份:2010
- 资助金额:32.0 万元
- 项目类别:面上项目
基于加权和约束概念格的数据挖掘方法与天体光谱数据挖掘技术
- 批准号:60773014
- 批准年份:2007
- 资助金额:26.0 万元
- 项目类别:面上项目
基于背景知识的数据挖掘方法及其在LAMOST中的应用
- 批准号:60573075
- 批准年份:2005
- 资助金额:23.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}