CIF: Small: Learning Low-Dimensional Representations with Heteroscedastic Data Sources

CIF:小:使用异方差数据源学习低维表示

基本信息

项目摘要

As data-collection efforts continue to grow, so does heterogeneity in data. Machine-learning methods typically assume that data come from a single source or uniform instrumentation with noise characteristics that are the same for every data point. This project will address questions fundamental to learning low-dimensional data representations with heteroscedastic data, wherein samples from different sources have additive noise of different variances. It is well-known that classical linear dimensionality-reduction methods such as principal component analysis (PCA) are sensitive to outliers, so high-variance noise will degrade representations learned by PCA. However, robust methods that simply reject outliers are suboptimal if, indeed, the data do have some signal, even if it is buried in noise. The premise of this project therefore is to use approaches that learn the best way to incorporate the contribution of every different data source, no matter how high- or low-quality, to improve the overall learned representation. Many applications will benefit from the work, including medical imaging, environmental monitoring, astronomical data analysis, computer vision, and bioinformatics. The investigators' prior work in this area indicates that when learning is driven by heterogeneous and heteroscedastic sources – for example, in medical imaging, using data from multiple scanners, or with varying radiation levels – a better model will be learned by actively considering and modeling the heterogeneity. How to optimize learning in the face of such heterogeneity has been so far relatively unstudied, and this research aims to fill that gap. The technical contributions will be in three directions. First, the team of researchers will study open questions regarding how heterogeneity in data affects PCA, including establishing the required sample complexity for learning heteroscedastic models and assessing the optimization landscape of heteroscedastic PCA problems. Second, the team will extend heteroscedastic PCA methods and theory to consider union-of-subspaces models, dictionary learning models, and transform learning models. Third, the investigators will consider how nonlinear low-dimensional embedding methods are affected by heteroscedasticity in the data. The work will focus on distance-based methods and develop a foundational understanding of using distances in machine learning with heterogeneous data sources.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
随着数据收集工作的不断发展,机器学习方法通​​常假设数据来自单一来源或统一的仪器,每个数据点的噪声特征都相同。使用异方差数据学习低维数据表示,但是来自不同来源的样本具有不同方差的加性噪声​​,众所周知,主成分分析(PCA)等经典线性降维方法对异常值很敏感,因此高方差噪声将然而,如果数据确实有一些信号,即使它被淹没在噪声中,简单地拒绝异常值的鲁棒方法也是次优的。因此,该项目的前提是使用学习最佳方式的方法。整合每个不同数据源的贡献,无论质量如何,以提高整体学习表示,许多应用程序将从这项工作中受益,包括医学成像、环境监测、天文数据分析、计算机视觉和生物信息学研究人员之前在该领域的工作表明,当学习是由异质和异方差源驱动时(例如,在医学成像中,使用来自多个扫描仪的数据或不同的辐射水平),通过积极考虑和建模可以学习更好的模型迄今为止,如何在面对这种异质性的情况下优化学习还没有被研究过,这项研究旨在填补这一空白,其技术贡献将在三个方向上进行。在数据影响PCA,包括建立学习异方差模型所需的样本复杂性并评估异方差 PCA 问题的优化前景。其次,该团队将扩展异方差 PCA 方法和理论,以考虑子空间联合模型、字典学习模型和变换学习模型。第三,研究人员将考虑非线性低维嵌入方法如何受到数据异方差性的影响。这项工作将重点关注基于距离的方法,并对在机器学习中使用距离有一个基本的理解。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Laura Balzano其他文献

Neural Collapse with Normalized Features: A Geometric Analysis over the Riemannian Manifold
具有归一化特征的神经崩溃:黎曼流形的几何分析
Iterative Grassmannian Optimization for Robust Image Alignment
用于鲁棒图像对齐的迭代格拉斯曼优化
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    4.7
  • 作者:
    Jun He;Dejiao Zhang;Laura Balzano;Tao Tao
  • 通讯作者:
    Tao Tao
Optimality of POD for Data-Driven LQR With Low-Rank Structures
具有低阶结构的数据驱动 LQR 的 POD 最优性
  • DOI:
    10.1109/lcsys.2023.3344147
  • 发表时间:
    2024-09-14
  • 期刊:
  • 影响因子:
    3
  • 作者:
    Rachel Newton;Zhe Du;Peter Seiler;Laura Balzano
  • 通讯作者:
    Laura Balzano
Efficient Low-Dimensional Compression of Overparameterized Models
过度参数化模型的高效低维压缩
  • DOI:
    10.48550/arxiv.2311.01479
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Soo Min Kwon;Zekai Zhang;Dogyoon Song;Laura Balzano;Qing Qu
  • 通讯作者:
    Qing Qu
Compressible Dynamics in Deep Overparameterized Low-Rank Learning&Adaptation
深度超参数化低阶学习中的可压缩动力学
  • DOI:
    10.48550/arxiv.2406.04112
  • 发表时间:
    2024-06-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Can Yaras;Peng Wang;Laura Balzano;Qing Qu
  • 通讯作者:
    Qing Qu

Laura Balzano的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Laura Balzano', 18)}}的其他基金

CIF: CAREER: Robust, Interpretable, and Efficient Unsupervised Learning with K-set Clustering
CIF:职业:使用 K 集聚类进行稳健、可解释且高效的无监督学习
  • 批准号:
    1845076
  • 财政年份:
    2019
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
BRIGE: Simultaneous Modeling and Calibration for Environmental Sensor Data
BRIGE:环境传感器数据的同步建模和校准
  • 批准号:
    1342121
  • 财政年份:
    2013
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant

相似国自然基金

基于自编码深度学习的空心涡轮叶盘高维小失效可靠性设计优化研究
  • 批准号:
    12302156
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于深度学习的小样本侧扫声纳小目标探测
  • 批准号:
    42374050
  • 批准年份:
    2023
  • 资助金额:
    53 万元
  • 项目类别:
    面上项目
基于无监督深度学习的复材小尺寸缺陷热成像表征方法研究
  • 批准号:
    62301507
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于图表示深度学习的全新小分子先导化合物筛选方法研究
  • 批准号:
    62372375
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于多时序多模态分子影像Delta深度融合学习预测非小细胞肺癌免疫治疗疗效的研究
  • 批准号:
    82371994
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
  • 批准号:
    2343600
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Signal Processing and Learning for NOMA Millimeter-Wave Massive MIMO Systems
CIF:小型:NOMA 毫米波大规模 MIMO 系统的信号处理和学习
  • 批准号:
    2413622
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Efficient and Secure Federated Structure Learning from Bad Data
CIF:小型:高效、安全的联邦结构从不良数据中学习
  • 批准号:
    2341359
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
  • 批准号:
    2343599
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Theory for Learning Lossless and Lossy Coding
协作研究:CIF:小型:学习无损和有损编码的理论
  • 批准号:
    2324397
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了