CIF: Small: Learning Low-Dimensional Representations with Heteroscedastic Data Sources
CIF:小:使用异方差数据源学习低维表示
基本信息
- 批准号:2331590
- 负责人:
- 金额:$ 60万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2024
- 资助国家:美国
- 起止时间:2024-01-01 至 2026-12-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
As data-collection efforts continue to grow, so does heterogeneity in data. Machine-learning methods typically assume that data come from a single source or uniform instrumentation with noise characteristics that are the same for every data point. This project will address questions fundamental to learning low-dimensional data representations with heteroscedastic data, wherein samples from different sources have additive noise of different variances. It is well-known that classical linear dimensionality-reduction methods such as principal component analysis (PCA) are sensitive to outliers, so high-variance noise will degrade representations learned by PCA. However, robust methods that simply reject outliers are suboptimal if, indeed, the data do have some signal, even if it is buried in noise. The premise of this project therefore is to use approaches that learn the best way to incorporate the contribution of every different data source, no matter how high- or low-quality, to improve the overall learned representation. Many applications will benefit from the work, including medical imaging, environmental monitoring, astronomical data analysis, computer vision, and bioinformatics. The investigators' prior work in this area indicates that when learning is driven by heterogeneous and heteroscedastic sources – for example, in medical imaging, using data from multiple scanners, or with varying radiation levels – a better model will be learned by actively considering and modeling the heterogeneity. How to optimize learning in the face of such heterogeneity has been so far relatively unstudied, and this research aims to fill that gap. The technical contributions will be in three directions. First, the team of researchers will study open questions regarding how heterogeneity in data affects PCA, including establishing the required sample complexity for learning heteroscedastic models and assessing the optimization landscape of heteroscedastic PCA problems. Second, the team will extend heteroscedastic PCA methods and theory to consider union-of-subspaces models, dictionary learning models, and transform learning models. Third, the investigators will consider how nonlinear low-dimensional embedding methods are affected by heteroscedasticity in the data. The work will focus on distance-based methods and develop a foundational understanding of using distances in machine learning with heterogeneous data sources.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
随着数据收集工作的不断增长,数据的异质性也随之增长。机器学习方法通常假定数据来自单个源或统一仪器,其噪声特性对于每个数据点都相同。该项目将解决使用异性数据学习低维数据表示基础的问题,其中来自不同来源的样本具有不同方差的额外噪声。众所周知,经典的线性维度还原方法(例如主成分分析(PCA))对异常值敏感,因此高变化的噪声将降低PCA学到的表示。但是,如果确实确实有一些信号,那么仅拒绝异常值的强大方法即使在噪声中也有一些信号。因此,该项目的前提是使用方法来学习最佳方法,以纳入每个不同数据源的贡献,无论多么高或低质量,以改善总体学习的代表。许多应用程序将从工作中受益,包括医学成像,环境监测,天文数据分析,计算机视觉和生物信息学。研究人员在该领域的先前工作表明,当学习是由异质和异质源来驱动的,例如,在医学成像中,使用来自多个扫描仪的数据或具有不同辐射水平的数据,将通过积极考虑和建模异质性来学习更好的模型。迄今为止,如何在这种异质性面前优化学习是相对未研究的,这项研究旨在填补这一空白。技术贡献将是三个方向。首先,研究人员团队将研究有关数据中的异质性如何影响PCA的开放问题,包括建立学习异质机模型所需的样本复杂性以及评估异性PCA问题的优化格局。其次,该团队将扩展异质的PCA方法和理论,以考虑掩埋场的模型,字典学习模型和转换学习模型。第三,研究人员将考虑数据中非线性低维嵌入方法如何受到异方差的影响。这项工作将集中在基于距离的方法上,并对使用异质数据来源的机器学习距离进行基本理解。该奖项反映了NSF的法定任务,并通过使用基金会的知识分子优点和更广泛的影响审查标准,通过评估来诚实地支持支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Laura Balzano其他文献
Laura Balzano的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Laura Balzano', 18)}}的其他基金
CIF: CAREER: Robust, Interpretable, and Efficient Unsupervised Learning with K-set Clustering
CIF:职业:使用 K 集聚类进行稳健、可解释且高效的无监督学习
- 批准号:
1845076 - 财政年份:2019
- 资助金额:
$ 60万 - 项目类别:
Continuing Grant
BRIGE: Simultaneous Modeling and Calibration for Environmental Sensor Data
BRIGE:环境传感器数据的同步建模和校准
- 批准号:
1342121 - 财政年份:2013
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
相似国自然基金
基于深度学习的小样本侧扫声纳小目标探测
- 批准号:42374050
- 批准年份:2023
- 资助金额:53 万元
- 项目类别:面上项目
基于图表示深度学习的全新小分子先导化合物筛选方法研究
- 批准号:62372375
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
不平衡数据下基于多源域迁移学习的小微企业信用风险评估研究
- 批准号:72301093
- 批准年份:2023
- 资助金额:30.00 万元
- 项目类别:青年科学基金项目
基于多时序多模态分子影像Delta深度融合学习预测非小细胞肺癌免疫治疗疗效的研究
- 批准号:82371994
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
基于无监督深度学习的复材小尺寸缺陷热成像表征方法研究
- 批准号:62301507
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
- 批准号:
2343599 - 财政年份:2024
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
- 批准号:
2343600 - 财政年份:2024
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
CIF: Small: Signal Processing and Learning for NOMA Millimeter-Wave Massive MIMO Systems
CIF:小型:NOMA 毫米波大规模 MIMO 系统的信号处理和学习
- 批准号:
2413622 - 财政年份:2024
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
CIF: Small: Efficient and Secure Federated Structure Learning from Bad Data
CIF:小型:高效、安全的联邦结构从不良数据中学习
- 批准号:
2341359 - 财政年份:2024
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
CIF:Small:Learning Sparse Vector and Matrix Graphs from Time-Dependent Data
CIF:小:从瞬态数据中学习稀疏向量和矩阵图
- 批准号:
2308473 - 财政年份:2023
- 资助金额:
$ 60万 - 项目类别:
Standard Grant