集群环境下的天体光谱离群数据挖掘与性能优化

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61572343
  • 项目类别:
    面上项目
  • 资助金额:
    64.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0607.知识表示与处理
  • 结题年份:
    2019
  • 批准年份:
    2015
  • 项目状态:
    已结题
  • 起止时间:
    2016-01-01 至2019-12-31

项目摘要

Centering on the key scientific problem being to solve“parallel mining theory and method of outliers from astronomical spectra data”,and making fully use of the strong data handling capacity of cluster system and MapReduce programming model,the project is to make deep research on the data mining method of astronomical spectra data and performance optimization of cluster system.The main research works are as follows:measure and search method of relative subspace oriented outliers,a related subspace and contextual information,a related subspace based contextual outlier mining algorithm and its parallelization,energy-driven data placement strategy,data placement strategy for load balancing,task scheduling algorithm of dynamic data placement,the dynamic weighted Shuffle strategy based on the feeback of the computing nodes,and outliers mining prototype system of astronomical spectra data.The project not only provides a new method and technology for mining unknown and special celestial objects from the large quantity of high-dimensional data,and further improves the scientific output of LAMOST.In addition,the project also offers an effective new method of outlier mining,as well as the realization approach of cluster system and performance optimization of programming model.
本项目围绕拟解决的关键科学问题“从天体光谱数据中,并行挖掘离群数据的理论和方法”,充分利用集群系统和MapReduce编程模型强大的数据处理能力,拟对天体光谱离群数据挖掘方法与编程模型性能优化进行深入研究。主要研究内容包括:面向离群数据的相关子空间度量与搜索、相关子空间与上下文有关信息的定义、相关子空间中的上下文有关离群数据挖掘算法及其并行化、能量驱动的数据放置策略、负载均衡的数据放置策略、动态数据放置的任务调度算法、基于计算结点反馈的动态权值Shuffle策略、天体光谱数据离群挖掘原型系统等。该项目研究不仅为实现从高维、海量天体光谱数据中挖掘未知和特殊的天体,进一步提高LAMOST的科学产出,拟提供一种新方法和新技术,同时也为海量高维数据分析处理,拟提供有效的离群数据挖掘新方法,以及集群系统与编程模型性能优化的实现途径。

结项摘要

本项目以国家重大科学工程LAMOST为应用背景,围绕拟解决的关键科学问题“从天体光谱数据中,并行挖掘离群数据的理论和方法”,充分利用集群系统和MapReduce/SPARK编程模型处理大型计算问题的能力,对海量高维天体光谱数据挖掘方法及技术进行了深入、系统的研究与探索,已圆满完成了研究内容,取得良好的研究成果,达到了预期研究目标和效果。所取得的重要成果包括:提出了一种基于相关子空间的上下文离群数据挖掘算法,以及一种MapReduce编程模型下的上下文离群数据并行挖掘算法,该算法所依据相关子空间属性信息,有效地提高离群数据的可解释性和可理解性;提出了一种基于加权特征分组的离群数据挖掘方法,以及一种基于Spark平台的处理高维海量数据集的并行框架,并采用RDD缓存、参数调优和数据放置等性能优优化策略,进一步提高了POS算法的性能;提出了一种基于属性相关性分析的局部离群数据检测算法,以及一种基于MapReduce的上下文离群数据并行检测算法,并利用构成稀疏子空间的属性信息,给出了相应的离群对象解释;针对并行kNN-join操作中出现的数据倾斜现象,提出了一种新的数据划分方法,有效地缓解负载不平衡问题;采用基于相关子空间的离群挖掘方法,从LAMOST DR3星系光谱数据中获得的离群数据挖掘结果中,针对呈现出多种稀有特征的光谱J140242.45+092049.8进行了深入特征分析等。其研究成果不仅能够实现从海量高维天体光谱数据中挖掘未知的、特殊的天体,进一步提高LAMOST的科学产出,而且也为大数据分析处理,提供有效的离群数据挖掘新方法、新算法以及有效的并行化实现途径。该项目所取得的成果已在《IEEE TPDDS》、《IEEE TSMC: Systems》、《Information Sciences》、ICDE等国内外学术刊物和学术会议上,已发表与录用学术论文14篇,其中:CCF 推荐的A类期刊和A类国际会议各1篇、B类期刊1篇、C类期刊3篇;IEEE汇刊3篇;SCI期刊9篇、EI刊物 2 篇。

项目成果

期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(1)
专利数量(0)
高斯混合模型下的相关子空间与离群数据挖掘
  • DOI:
    --
  • 发表时间:
    2018
  • 期刊:
    小型微型计算机系统
  • 影响因子:
    --
  • 作者:
    樊盼盼;张继福
  • 通讯作者:
    张继福
LOMA: A local outlier mining algorithm based on attribute relevance analysis
LOMA:一种基于属性相关性分析的局部异常值挖掘算法
  • DOI:
    10.1016/j.eswa.2017.05.009
  • 发表时间:
    2017
  • 期刊:
    Expert Systems with Applications
  • 影响因子:
    8.5
  • 作者:
    Zhao Xujun;Zhang Jifu;Qin Xiao
  • 通讯作者:
    Qin Xiao
Feature grouping-based parallel outlier mining of categorical data using spark
使用 Spark 对分类数据进行基于特征分组的并行异常值挖掘
  • DOI:
    10.1101/377432
  • 发表时间:
    2019
  • 期刊:
    Information Sciences
  • 影响因子:
    8.1
  • 作者:
    Li Junli;Zhang Jifu;Qin Xiao;Xun Yaling
  • 通讯作者:
    Xun Yaling
一种基于多属性权重的分类数据子空间聚类算法
  • DOI:
    --
  • 发表时间:
    2018
  • 期刊:
    自动化学报
  • 影响因子:
    --
  • 作者:
    庞宁;张继福;秦啸
  • 通讯作者:
    秦啸
Parallel mining of contextual outlier using sparse subspace
使用稀疏子空间并行挖掘上下文异常值
  • DOI:
    10.1016/j.eswa.2019.02.020
  • 发表时间:
    2019
  • 期刊:
    Expert Systems with Applications
  • 影响因子:
    8.5
  • 作者:
    Zhao Xujun;Zhang Jifu;Qin Xiao;Cai Jianghui;Ma Yang
  • 通讯作者:
    Ma Yang

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于MapReduce与相关子空间的局部离群数据挖掘算法
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    张继福;李永红;秦啸;荀亚玲
  • 通讯作者:
    荀亚玲
LAMOST离群光谱J140242.45+092049.8特征分析
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    光谱学与光谱分析
  • 影响因子:
    --
  • 作者:
    杨海峰;蔡江辉;张继福;罗阿理;赵旭俊
  • 通讯作者:
    赵旭俊
基于形式概念分析的图像场景语义标注模型
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    计算机应用
  • 影响因子:
    --
  • 作者:
    张素兰;张继福;胡立华;褚萌
  • 通讯作者:
    褚萌
一种面向枢纽现象的离群数据检测算法
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    小型微型计算机系统
  • 影响因子:
    --
  • 作者:
    马文强;赵旭俊;张继福;饶元淇
  • 通讯作者:
    饶元淇
A CL-BASED HIERARCHICAL SCENE CLASSIFICATION MODEL
基于CL的层次场景分类模型
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    ICIC Express Letters
  • 影响因子:
    --
  • 作者:
    张素兰;张继福;胡立华
  • 通讯作者:
    胡立华

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

张继福的其他基金

面向天体光谱大数据分析的属性分组加权离群检测研究
  • 批准号:
    62172293
  • 批准年份:
    2021
  • 资助金额:
    60 万元
  • 项目类别:
    面上项目
高维海量恒星光谱数据的并行子空间聚类分析
  • 批准号:
    61876122
  • 批准年份:
    2018
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目
海量高维天体光谱数据挖掘及其并行化研究
  • 批准号:
    61272263
  • 批准年份:
    2012
  • 资助金额:
    80.0 万元
  • 项目类别:
    面上项目
面向LAMOST天文光谱特征线的数据挖掘方法研究
  • 批准号:
    61073145
  • 批准年份:
    2010
  • 资助金额:
    32.0 万元
  • 项目类别:
    面上项目
基于加权和约束概念格的数据挖掘方法与天体光谱数据挖掘技术
  • 批准号:
    60773014
  • 批准年份:
    2007
  • 资助金额:
    26.0 万元
  • 项目类别:
    面上项目
基于背景知识的数据挖掘方法及其在LAMOST中的应用
  • 批准号:
    60573075
  • 批准年份:
    2005
  • 资助金额:
    23.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码