CIF: CAREER: Robust, Interpretable, and Efficient Unsupervised Learning with K-set Clustering

CIF:职业:使用 K 集聚类进行稳健、可解释且高效的无监督学习

基本信息

项目摘要

Modern machine learning techniques aim to design models and algorithms that allow computers to learn efficiently from vast amounts of previously unexplored data. These problems are called 'unsupervised' because no human-provided information about the data is available to guide the machine learning process. Arguably the two most important unsupervised machine learning tools are dimensionality-reduction and clustering. In dimensionality-reduction, the algorithm seeks a simple low-dimensional structure that captures the interesting behavior in the data. In clustering, the algorithm seeks to group data points together into meaningful clusters. As increasingly higher-dimensional data are collected about progressively more elaborate physical, biological, and social phenomena, algorithms that aim at both dimensionality reduction and clustering are often highly applicable. However, joint formulations in the literature are often ad-hoc and fundamentally unable to operate on real data that have missing elements, corruptions, and heterogeneity --- critical machine learning challenges for modern data problems. This research project is expected to have broad applicability in data science, and will be demonstrated in two applications: genetics and computer vision. The joint clustering and dimensionality reduction formulation used in this project, called K-set clustering, seeks K "central sets" constrained to have some low-dimensional representation, each of which represents one of K clusters in the data. The formulation is a generalization of K-means, K-subspaces, and principal component analysis, and it naturally leads to several novel problem instances. Given a defined set geometry, the corresponding problem instance is approached from two perspectives: understanding the geometry of that instance of the problem formulation, and learning those geometric models from data. Three specific examples of the problem formulation will be studied: subspace clustering, variety clustering, and polyhedral set clustering. While each example presents intrinsic and unique challenges, these are just examples of a larger paradigm that is limited only by one's ability to define sets amenable to modeling the geometric structure in data. The formulation allows for interpretable data analysis, with a framework that can readily incorporate missing data and heterogeneous data.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
现代机器学习技术旨在设计模型和算法,使计算机能够从大量先前未探索的数据中高效学习。这些问题被称为“无监督”,因为没有人类提供的有关数据的信息可用于指导机器学习过程。可以说,两个最重要的无监督机器学习工具是降维和聚类。在降维中,算法寻求一种简单的低维结构来捕获数据中有趣的行为。在聚类中,该算法试图将数据点分组为有意义的聚类。随着越来越多的高维数据被收集,涉及越来越复杂的物理、生物和社会现象,旨在降维和聚类的算法通常非常适用。然而,文献中的联合表述通常是临时的,并且从根本上无法对存在元素缺失、损坏和异质性的真实数据进行操作——这是现代数据问题的关键机器学习挑战。该研究项目预计将在数据科学中具有广泛的适用性,并将在遗传学和计算机视觉两个应用中得到证明。该项目中使用的联合聚类和降维公式称为 K 集聚类,它寻求 K 个“中心集”,这些“中心集”被限制为具有某种低维表示,每个中心集代表数据中的 K 个簇之一。该公式是 K 均值、K 子空间和主成分分析的推广,它自然会导致几个新的问题实例。给定定义的几何集合,可以从两个角度处理相应的问题实例:理解问题公式的该实例的几何形状,并从数据中学习这些几何模型。将研究问题表述的三个具体示例:子空间聚类、多样性聚类和多面体集聚类。虽然每个示例都提出了内在和独特的挑战,但这些只是更大范式的示例,该范式仅受定义适合对数据中的几何结构进行建模的集合的能力的限制。该公式允许进行可解释的数据分析,并具有一个可以轻松纳入缺失数据和异构数据的框架。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力优点和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(25)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Neural Collapse with Normalized Features: A Geometric Analysis over the Riemannian Manifold
具有归一化特征的神经崩溃:黎曼流形的几何分析
Subspace clustering using ensembles of K -subspaces
使用 K 子空间集合的子空间聚类
PROBABILISTIC PCA FOR HETEROSCEDASTIC DATA
适用于异方差数据的概率 PCA
  • DOI:
  • 发表时间:
    2019-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hong, David;Balzano, Laura;Fessler, Jeffrey A
  • 通讯作者:
    Fessler, Jeffrey A
Clustering-based Mode Reduction for Markov Jump Systems
马尔可夫跳跃系统的基于聚类的模式缩减
Learning Latent Representations in High-Dimensional State Spaces Using Polynomial Manifold Constructions
使用多项式流形结构学习高维状态空间中的潜在表示
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Laura Balzano其他文献

Iterative Grassmannian Optimization for Robust Image Alignment
用于鲁棒图像对齐的迭代格拉斯曼优化
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    4.7
  • 作者:
    Jun He;Dejiao Zhang;Laura Balzano;Tao Tao
  • 通讯作者:
    Tao Tao
Optimality of POD for Data-Driven LQR With Low-Rank Structures
具有低阶结构的数据驱动 LQR 的 POD 最优性
  • DOI:
    10.1109/lcsys.2023.3344147
  • 发表时间:
    2024-09-14
  • 期刊:
  • 影响因子:
    3
  • 作者:
    Rachel Newton;Zhe Du;Peter Seiler;Laura Balzano
  • 通讯作者:
    Laura Balzano
Efficient Low-Dimensional Compression of Overparameterized Models
过度参数化模型的高效低维压缩
  • DOI:
    10.48550/arxiv.2311.01479
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Soo Min Kwon;Zekai Zhang;Dogyoon Song;Laura Balzano;Qing Qu
  • 通讯作者:
    Qing Qu
Compressible Dynamics in Deep Overparameterized Low-Rank Learning&Adaptation
深度超参数化低阶学习中的可压缩动力学
  • DOI:
    10.48550/arxiv.2406.04112
  • 发表时间:
    2024-06-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Can Yaras;Peng Wang;Laura Balzano;Qing Qu
  • 通讯作者:
    Qing Qu
The Law of Parsimony in Gradient Descent for Learning Deep Linear Networks
学习深度线性网络的梯度下降中的简约法则
  • DOI:
    10.48550/arxiv.2306.01154
  • 发表时间:
    2023-06-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Can Yaras;P. Wang;Wei Hu;Zhihui Zhu;Laura Balzano;Qing Qu
  • 通讯作者:
    Qing Qu

Laura Balzano的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Laura Balzano', 18)}}的其他基金

CIF: Small: Learning Low-Dimensional Representations with Heteroscedastic Data Sources
CIF:小:使用异方差数据源学习低维表示
  • 批准号:
    2331590
  • 财政年份:
    2024
  • 资助金额:
    $ 59.68万
  • 项目类别:
    Standard Grant
BRIGE: Simultaneous Modeling and Calibration for Environmental Sensor Data
BRIGE:环境传感器数据的同步建模和校准
  • 批准号:
    1342121
  • 财政年份:
    2013
  • 资助金额:
    $ 59.68万
  • 项目类别:
    Standard Grant

相似国自然基金

基于冷辅助固相微萃取的职业场所中痕量液晶单体高灵敏检测技术研究
  • 批准号:
    82373634
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
融合时域维度的多源异构核电职业健康风险评估与可视化研究
  • 批准号:
    72301244
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
共生视角下煤矿粉尘职业危害多主体协同治理机制研究
  • 批准号:
    52304195
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
新时代科技强国目标下组织支持对女性学者职业发展的激励机制研究
  • 批准号:
    72374015
  • 批准年份:
    2023
  • 资助金额:
    40 万元
  • 项目类别:
    面上项目
促进女性职业发展的机制研究:基于性别观念分化视角
  • 批准号:
    72303138
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

CAREER: Robust, Fair, and Culturally Aware Commonsense Reasoning in Natural Language
职业:用自然语言进行稳健、公平和具有文化意识的常识推理
  • 批准号:
    2339746
  • 财政年份:
    2024
  • 资助金额:
    $ 59.68万
  • 项目类别:
    Continuing Grant
CAREER: Unary Computing in Memory for Fast, Robust and Energy-Efficient Processing
职业:内存中的一元计算,实现快速、稳健和节能的处理
  • 批准号:
    2339701
  • 财政年份:
    2024
  • 资助金额:
    $ 59.68万
  • 项目类别:
    Continuing Grant
CAREER: Structured Minimax Optimization: Theory, Algorithms, and Applications in Robust Learning
职业:结构化极小极大优化:稳健学习中的理论、算法和应用
  • 批准号:
    2338846
  • 财政年份:
    2024
  • 资助金额:
    $ 59.68万
  • 项目类别:
    Continuing Grant
CAREER: Game Theoretic Models for Robust Cyber-Physical Interactions: Inference and Design under Uncertainty
职业:稳健的网络物理交互的博弈论模型:不确定性下的推理和设计
  • 批准号:
    2336840
  • 财政年份:
    2024
  • 资助金额:
    $ 59.68万
  • 项目类别:
    Continuing Grant
CAREER: Robust Reinforcement Learning Under Model Uncertainty: Algorithms and Fundamental Limits
职业:模型不确定性下的鲁棒强化学习:算法和基本限制
  • 批准号:
    2337375
  • 财政年份:
    2024
  • 资助金额:
    $ 59.68万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了