CRII: III: Scaling up Distance Metric Learning for Large-scale Ultrahigh-dimensional Data
CRII:III:扩大大规模超高维数据的距离度量学习
基本信息
- 批准号:1463988
- 负责人:
- 金额:$ 17.46万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2015
- 资助国家:美国
- 起止时间:2015-03-01 至 2018-02-28
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
This project is to research and develop highly scalable stochastic optimization algorithms for distance metric learning (DML) for large-scale ultrahigh-dimensional (LSUD) data. DML is a fundamental problem in machine learning aiming to learn a distance metric such that intra-class variation is small and inter-class variation is large. When the scale and dimensionality of data is very large, the computational cost of DML is prohibitive. Domains utilizing machine learning techniques such as computer vision, natural language processing and bioinformatics will be directly impacted by this research. For example, one application is fine-grained image classification, e.g., categorizing different types of flowers or models of vehicles from pictures (this application will be used as one criteria to evaluate success of the research.) The research will enable data scientists to extract more knowledge from massive high-dimensional data complementing the White House BIG DATA Initiative to analyze large and complex data sets. Beyond its research impact, this project will facilitate the development of a new machine learning course at the University of Iowa (UI), and contribute to training future professionals in big data analytics. Broader impact will be further affected by dissemination of results through publications, open-sourced software, etc.This project addresses the computational challenges of LSUD-DML by scaling up the state of the art stochastic gradient descent (SGD) methods. A key computational bottleneck in applying SGD to DML is to project the updated solution into a complicated feasible domain at each iteration. The innovative proposed ideas lie at reducing the total cost of projections by (i) constructing and exploring a low-rank structured stochastic gradient to reduce the cost of projection, and (ii) dividing iterations into epochs and performing a projection-efficient SGD at each epoch to reduce the number of projections. Investigating data-dependent sampling strategies (i.e., selective sampling, importance sampling, and a combination of both) for LSUD-DML will further scale up the proposed methods. This research will provide experimental evidence regarding the scalability of the proposed algorithms while revealing insights into the proposed techniques and various analytical tradeoffs.For further information see the project web site at: http://homepage.cs.uiowa.edu/~tyng/dml.html.
该项目是为了研究和开发高度可扩展的随机优化算法,用于远程度量学习(DML)用于大规模超高维(LSUD)数据。 DML是机器学习旨在学习距离度量的一个基本问题,因此类内变化很小,类间变化很大。 当数据的尺度和维度非常大时,DML的计算成本是过时的。利用机器学习技术,例如计算机视觉,自然语言处理和生物信息学的领域将受到这项研究的直接影响。例如,一种应用是细粒度的图像分类,例如,对图片中不同类型的花朵或车辆模型进行分类(该应用将用作评估研究成功的一个标准。)该研究将使数据科学家能够从大规模的高维数据中提取更多知识,以补充白色的白宫大数据,以分析大型和复杂的数据集。除研究影响外,该项目还将促进爱荷华大学(UI)新机器学习课程的开发,并为大数据分析的未来专业人员培训。通过出版物,开源软件等传播结果的影响将进一步影响。该项目通过扩大最先进的随机梯度下降(SGD)方法来解决LSUD-DML的计算挑战。将SGD应用于DML的关键计算瓶颈是将更新的解决方案投射到每次迭代时可行的可行域中。创新的想法旨在通过(i)构建和探索低级别的结构性随机梯度来降低投影的总成本,以降低投影成本,(ii)将迭代分为时期并在每个时期内进行投影有效的SGD,以减少投影次数。研究依赖数据的采样策略(即选择性抽样,重要性采样和两者组合)对于LSUD-DML将进一步扩展提出的方法。这项研究将提供有关拟议算法的可伸缩性的实验证据,同时揭示了对所提出的技术和各种分析折衷的见解。有关更多信息,请参见项目网站:http://homepage.cs.uiowa.edu/~tyng/dml.html.html.html。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Tianbao Yang其他文献
Improved bounds for the Nystrm method with application to kernel classification
改进 Nystr 的界限
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:2.5
- 作者:
Rong Jin;Tianbao Yang;Mehrdad Mahdavi;Yu-Feng Li;Zhi-Hua Zhou - 通讯作者:
Zhi-Hua Zhou
Deep AUC Maximization for Medical Image Classification: Challenges and Opportunities
- DOI:
- 发表时间:
2021-11 - 期刊:
- 影响因子:0
- 作者:
Tianbao Yang - 通讯作者:
Tianbao Yang
Evolution of the morphological, structural, and molecular properties of gluten protein in dough with different hydration levels during mixing.
- DOI:
10.1016/j.fochx.2022.100448 - 发表时间:
2022-10-30 - 期刊:
- 影响因子:6.1
- 作者:
Ruobing Jia;Mengli Zhang;Tianbao Yang;Meng Ma;Qingjie Sun;Man Li - 通讯作者:
Man Li
UV-Light-Induced Dehydrogenative N-Acylation of Amines with 2-Nitrobenzaldehydes to Give 2-Aminobenzamides
紫外线诱导胺与 2-硝基苯甲醛脱氢 N-酰化生成 2-氨基苯甲酰胺
- DOI:
10.1055/a-1736-4388 - 发表时间:
2022-01 - 期刊:
- 影响因子:0
- 作者:
Dishu Zeng;Tianbao Yang;Niu Tang;Wei Deng;Jiannan Xiang;Shuang-Feng Yin;Nobuaki Kambe;Renhua Qiu - 通讯作者:
Renhua Qiu
Regret bounded by gradual variation for online convex optimization
在线凸优化的渐进变化所带来的遗憾
- DOI:
10.1007/s10994-013-5418-8 - 发表时间:
2014 - 期刊:
- 影响因子:7.5
- 作者:
Tianbao Yang;M. Mahdavi;Rong Jin;Shenghuo Zhu - 通讯作者:
Shenghuo Zhu
Tianbao Yang的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Tianbao Yang', 18)}}的其他基金
Collaborative Research:SCH:Bimodal Interpretable Multi-Instance Medical-Image Classification
合作研究:SCH:双峰可解释多实例医学图像分类
- 批准号:
2306572 - 财政年份:2023
- 资助金额:
$ 17.46万 - 项目类别:
Standard Grant
FAI: Advancing Optimization for Threshold-Agnostic Fair AI Systems
FAI:推进与阈值无关的公平人工智能系统的优化
- 批准号:
2147253 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Standard Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
- 批准号:
2246756 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Continuing Grant
CAREER: Advancing Constrained and Non-Convex Learning
职业:推进约束和非凸学习
- 批准号:
2246753 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Continuing Grant
FAI: Advancing Optimization for Threshold-Agnostic Fair AI Systems
FAI:推进与阈值无关的公平人工智能系统的优化
- 批准号:
2246757 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Standard Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
- 批准号:
2110545 - 财政年份:2021
- 资助金额:
$ 17.46万 - 项目类别:
Continuing Grant
CAREER: Advancing Constrained and Non-Convex Learning
职业:推进约束和非凸学习
- 批准号:
1844403 - 财政年份:2019
- 资助金额:
$ 17.46万 - 项目类别:
Continuing Grant
Collaborative Research: Online Data Stream Fusion and Deep Learning for Virtual Meter in Smart Power Distribution Systems
合作研究:智能配电系统中虚拟电表的在线数据流融合和深度学习
- 批准号:
1933212 - 财政年份:2019
- 资助金额:
$ 17.46万 - 项目类别:
Standard Grant
BIGDATA: F: New Algorithms of Online Machine Learning for Big Data
BIGDATA:F:大数据在线机器学习的新算法
- 批准号:
1545995 - 财政年份:2015
- 资助金额:
$ 17.46万 - 项目类别:
Standard Grant
相似国自然基金
人工湿地铁循环驱动As(III)氧化的过程调控及其强化除砷机制
- 批准号:52370204
- 批准年份:2023
- 资助金额:51 万元
- 项目类别:面上项目
III-E型CRISPR-Cas系统的结构生物学及其应用研究
- 批准号:32371276
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
乙肝肝纤维化进程咪唑丙酸通过mTORC1通路调控III型固有淋巴细胞糖脂代谢重编程及机制研究
- 批准号:82370622
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
生物炭表面结构属性对Fe(II)氧化诱导As(III)氧化截污的影响机制
- 批准号:42307492
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
铁载体与Fe(III)相互作用过程的铁同位素分馏及机理的模拟实验研究
- 批准号:42377264
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
相似海外基金
III: Medium: Collaborative Research: Scaling Time Series Analytics to Massive Seismology Datasets
III:媒介:协作研究:将时间序列分析扩展到海量地震数据集
- 批准号:
2103976 - 财政年份:2021
- 资助金额:
$ 17.46万 - 项目类别:
Continuing Grant
III: Medium: Collaborative Research: Scaling Time Series Analytics to Massive Seismology Datasets
III:媒介:协作研究:将时间序列分析扩展到海量地震数据集
- 批准号:
2104537 - 财政年份:2021
- 资助金额:
$ 17.46万 - 项目类别:
Continuing Grant
III: Medium: Collaborative Research: Scaling Time Series Analytics to Massive Seismology Datasets
III:媒介:协作研究:将时间序列分析扩展到海量地震数据集
- 批准号:
2104240 - 财政年份:2021
- 资助金额:
$ 17.46万 - 项目类别:
Continuing Grant
III: Medium: Collaborative Research: Scaling Machine Learning to Massive Datasets---A Logic Based Approach
III:媒介:协作研究:将机器学习扩展到海量数据集——基于逻辑的方法
- 批准号:
1302690 - 财政年份:2013
- 资助金额:
$ 17.46万 - 项目类别:
Continuing Grant
III: Medium: Collaborative Research: Scaling Machine Learning to Massive Datasets---A Logic Based Approach
III:媒介:协作研究:将机器学习扩展到海量数据集——基于逻辑的方法
- 批准号:
1302698 - 财政年份:2013
- 资助金额:
$ 17.46万 - 项目类别:
Continuing Grant