基于特征聚类的高维混合属性数据特征选择方法
项目介绍
AI项目解读
基本信息
- 批准号:61806131
- 项目类别:青年科学基金项目
- 资助金额:25.0万
- 负责人:
- 依托单位:
- 学科分类:F0603.机器学习
- 结题年份:2021
- 批准年份:2018
- 项目状态:已结题
- 起止时间:2019-01-01 至2021-12-31
- 项目参与者:欧阳乐; 陈昌盛; 秦兴红; 孙瑶; 李沐霖; 田贤浩;
- 关键词:
项目摘要
With the growing popularity of network informationization and the rapid development of new technologies on data collection, storage, and transmission, the data we obtained are presenting the following three characteristics: huge sample size, high dimensionality, and mixed feature types. Therefore, high efficient data analysis technologies are needed to analyze this large amount of high-dimensional mixed data and extract useful knowledge and information from them to provide important basis for social decision-making and scientific research. Generally, feature selection is one of the most commonly utilized techniques for high-dimensional data analysis. However, the existing feature selection methods are usually only applicable to purely numerical or categorical data, which cannot be directly applied to data with mixed attributes. In view of this, this project intends to study fast and effective feature selection method for the analysis of large high-dimensional mixed data. This study will fully explore the statistical characteristics of numerical and categorical features as well as the differences and intrinsic correlation between them. Subsequently, based on the feature clustering analysis, a new feature selection model with high efficiency and scalability is to be presented. Specifically, this project will mainly focus on studying the following three key issues: 1) Unified criteria to measure the relevance of different features with mixed types and the similarity between them; 2) Robust and adaptive clustering model and algorithm for the clustering analysis of mixed features; 3) Feature cluster based feature selection method.
随着网络信息化的日益普及以及数据收集、存储、传输等技术的迅速发展,我们所获得的数据呈现出样本规模巨大、维度较高、特征类型多样化的特点。因此,我们需要研究高效的数据分析技术从这些海量的高维的具有混合属性特征的数据中挖掘有价值的知识和信息,为社会决策及科学研究提供重要依据。在高维数据分析中,特征选择是最常用的技术方法之一。然而,已有的特征选择方法通常只适用于单一的数值属性或者符号属性数据,无法直接应用于混合属性数据。鉴于此,本项目拟面向海量高维混合属性数据,研究快速有效的特征选择方法。该研究充分探索数值型特征和符号型特征的统计特性、相互之间的差异性及内在关联,以特征聚类分析为基础,建立高效率高扩展性的特征选择模型。在深入理论研究的基础上,本项目着重研究以下三个问题:1)混合属性特征的相关性及特征间相似性的度量;2)鲁棒自适应的混合属性特征聚类分析模型与算法;3)基于特征类的特征选择方法。
结项摘要
本项目主要研究基于特征聚类的高维数据特征选择方法以及混合数据的无监督学习方法。在实际执行过程中,进行的研究内容主要包括特征间相似性的度量、基于原型聚类思想的快速特征聚类算法、基于特征簇的特征子集选择方法、基于低冗余学习的高维多视图数据特征选择方法以及无监督环境下混合属性数据的聚类分析方法。其中,在特征聚类方面,提出的新的基于原型的聚类算法无需预先定义类别数目,而是从数据集中循环学习得到最终的特征类别数目。该算法在特征划分过程中不断调整特征类的数量,增加了算法应对不同数据集不同特征相似性的灵活性和适应性。基于学习所得的特征簇挑选特征子集时,我们提出了局部拉普拉斯得分的概念,使得挑选的特征子集具有较好的学习性能。其次,针对大多数现有的多视图特征选择算法所选特征子集可能会保留与学习任务相关但彼此高度冗余的特征的问题,项目中研究了一种适用于多视图无监督特征选择的低冗余学习方法。该方法同时考虑视图内和视图间的特征冗余情况,选择冗余度低的特征子集。另外,本项目还研究了混合类别属性数据聚类分析方法,提出一种基于动态距离度量的混合类别属性数据聚类分析算法。该方法同时考虑离散属性本身的特性以及序数属性的拓扑结构,较好地反应混合类别属性数据的类别结构。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(2)
专利数量(1)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
A Three-dimensional Tm(III)-Zn(II) Heteronuclear Metal-organic Framework Based on Imidazole-dicarboxylate Ligand: Synthesis, Crystal Structure and Luminescence Property
基于咪唑二羧酸酯配体的三维Tm(III)-Zn(II)异核金属有机骨架的合成、晶体结构和发光性能
- DOI:--
- 发表时间:2018-01-10
- 期刊:
- 影响因子:--
- 作者:郭楠;冯勋;贾红;秦国展;魏靖涛;韩志越
- 通讯作者:韩志越
Structural and Ferromagnetic Properties SnO2/TiO2 Nanotubes Obtained by Electrospinning
静电纺丝获得的 SnO2/TiO2 纳米管的结构和铁磁性能
- DOI:10.1142/s1793292017501272
- 发表时间:2017
- 期刊:Nano
- 影响因子:1.2
- 作者:赵建果;谷艳红;贾红;胡转;乔书倩;靳梦静;葛潘婷;张伟英;刘世江;刘照军
- 通讯作者:刘照军
猪脑心肌炎病毒P1和P12A3C基因重组腺病毒的构建及其在小鼠体内的免疫应答
- DOI:--
- 发表时间:--
- 期刊:中国兽医科学
- 影响因子:--
- 作者:郭鑫;查振林;盖新娜;贾红;陈振海;杨汉春;陈艳红
- 通讯作者:陈艳红
牛分枝杆菌重组蛋白TB10.4对RAW264.7细胞TLR2表达和分布的影响
- DOI:--
- 发表时间:2015
- 期刊:华中农业大学学报
- 影响因子:--
- 作者:鑫婷;侯绍华;朱鸿飞;贾红
- 通讯作者:贾红
猪脑心肌炎病毒P1和P12A3C基因重组腺病毒的构建及其在小鼠体内的免疫应答
- DOI:--
- 发表时间:--
- 期刊:中国兽医科学
- 影响因子:--
- 作者:贾红;杨汉春;查振林;陈振海;盖新娜;陈艳红;郭鑫
- 通讯作者:郭鑫
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}