基于特征聚类的高维混合属性数据特征选择方法

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61806131
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    25.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0603.机器学习
  • 结题年份:
    2021
  • 批准年份:
    2018
  • 项目状态:
    已结题
  • 起止时间:
    2019-01-01 至2021-12-31

项目摘要

With the growing popularity of network informationization and the rapid development of new technologies on data collection, storage, and transmission, the data we obtained are presenting the following three characteristics: huge sample size, high dimensionality, and mixed feature types. Therefore, high efficient data analysis technologies are needed to analyze this large amount of high-dimensional mixed data and extract useful knowledge and information from them to provide important basis for social decision-making and scientific research. Generally, feature selection is one of the most commonly utilized techniques for high-dimensional data analysis. However, the existing feature selection methods are usually only applicable to purely numerical or categorical data, which cannot be directly applied to data with mixed attributes. In view of this, this project intends to study fast and effective feature selection method for the analysis of large high-dimensional mixed data. This study will fully explore the statistical characteristics of numerical and categorical features as well as the differences and intrinsic correlation between them. Subsequently, based on the feature clustering analysis, a new feature selection model with high efficiency and scalability is to be presented. Specifically, this project will mainly focus on studying the following three key issues: 1) Unified criteria to measure the relevance of different features with mixed types and the similarity between them; 2) Robust and adaptive clustering model and algorithm for the clustering analysis of mixed features; 3) Feature cluster based feature selection method.
随着网络信息化的日益普及以及数据收集、存储、传输等技术的迅速发展,我们所获得的数据呈现出样本规模巨大、维度较高、特征类型多样化的特点。因此,我们需要研究高效的数据分析技术从这些海量的高维的具有混合属性特征的数据中挖掘有价值的知识和信息,为社会决策及科学研究提供重要依据。在高维数据分析中,特征选择是最常用的技术方法之一。然而,已有的特征选择方法通常只适用于单一的数值属性或者符号属性数据,无法直接应用于混合属性数据。鉴于此,本项目拟面向海量高维混合属性数据,研究快速有效的特征选择方法。该研究充分探索数值型特征和符号型特征的统计特性、相互之间的差异性及内在关联,以特征聚类分析为基础,建立高效率高扩展性的特征选择模型。在深入理论研究的基础上,本项目着重研究以下三个问题:1)混合属性特征的相关性及特征间相似性的度量;2)鲁棒自适应的混合属性特征聚类分析模型与算法;3)基于特征类的特征选择方法。

结项摘要

本项目主要研究基于特征聚类的高维数据特征选择方法以及混合数据的无监督学习方法。在实际执行过程中,进行的研究内容主要包括特征间相似性的度量、基于原型聚类思想的快速特征聚类算法、基于特征簇的特征子集选择方法、基于低冗余学习的高维多视图数据特征选择方法以及无监督环境下混合属性数据的聚类分析方法。其中,在特征聚类方面,提出的新的基于原型的聚类算法无需预先定义类别数目,而是从数据集中循环学习得到最终的特征类别数目。该算法在特征划分过程中不断调整特征类的数量,增加了算法应对不同数据集不同特征相似性的灵活性和适应性。基于学习所得的特征簇挑选特征子集时,我们提出了局部拉普拉斯得分的概念,使得挑选的特征子集具有较好的学习性能。其次,针对大多数现有的多视图特征选择算法所选特征子集可能会保留与学习任务相关但彼此高度冗余的特征的问题,项目中研究了一种适用于多视图无监督特征选择的低冗余学习方法。该方法同时考虑视图内和视图间的特征冗余情况,选择冗余度低的特征子集。另外,本项目还研究了混合类别属性数据聚类分析方法,提出一种基于动态距离度量的混合类别属性数据聚类分析算法。该方法同时考虑离散属性本身的特性以及序数属性的拓扑结构,较好地反应混合类别属性数据的类别结构。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(2)
专利数量(1)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

A Three-dimensional Tm(III)-Zn(II) Heteronuclear Metal-organic Framework Based on Imidazole-dicarboxylate Ligand: Synthesis, Crystal Structure and Luminescence Property
基于咪唑二羧酸酯配体的三维Tm(III)-Zn(II)异核金属有机骨架的合成、晶体结构和发光性能
  • DOI:
    --
  • 发表时间:
    2018-01-10
  • 期刊:
  • 影响因子:
    --
  • 作者:
    郭楠;冯勋;贾红;秦国展;魏靖涛;韩志越
  • 通讯作者:
    韩志越
Structural and Ferromagnetic Properties SnO2/TiO2 Nanotubes Obtained by Electrospinning
静电纺丝获得的 SnO2/TiO2 纳米管的结构和铁磁性能
  • DOI:
    10.1142/s1793292017501272
  • 发表时间:
    2017
  • 期刊:
    Nano
  • 影响因子:
    1.2
  • 作者:
    赵建果;谷艳红;贾红;胡转;乔书倩;靳梦静;葛潘婷;张伟英;刘世江;刘照军
  • 通讯作者:
    刘照军
猪脑心肌炎病毒P1和P12A3C基因重组腺病毒的构建及其在小鼠体内的免疫应答
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    中国兽医科学
  • 影响因子:
    --
  • 作者:
    郭鑫;查振林;盖新娜;贾红;陈振海;杨汉春;陈艳红
  • 通讯作者:
    陈艳红
牛分枝杆菌重组蛋白TB10.4对RAW264.7细胞TLR2表达和分布的影响
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    华中农业大学学报
  • 影响因子:
    --
  • 作者:
    鑫婷;侯绍华;朱鸿飞;贾红
  • 通讯作者:
    贾红
猪脑心肌炎病毒P1和P12A3C基因重组腺病毒的构建及其在小鼠体内的免疫应答
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    中国兽医科学
  • 影响因子:
    --
  • 作者:
    贾红;杨汉春;查振林;陈振海;盖新娜;陈艳红;郭鑫
  • 通讯作者:
    郭鑫

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码