CRII: AF: RUI: New Approaches for Space-Efficient Similarity Search
CRII:AF:RUI:节省空间的相似性搜索的新方法
基本信息
- 批准号:2103813
- 负责人:
- 金额:$ 14.87万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-06-15 至 2024-11-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Given a large dataset, how can one find a similar item to a given query? Preprocessing the dataset to quickly find these similar items is called "similarity search." Similarity search is a fundamental computing problem with applications in data science, machine learning, and bioinformatics. Similarity search has been studied extensively both in theory and in practice, and the state of the art has been highly optimized. Unfortunately, many previous techniques require a very large amount of extra storage space to help answer queries quickly. This can be a significant limitation, as storage space is limited by the hardware being used to store the dataset. Surprisingly, space-efficient similarity-search methods have only been studied in a few restricted settings. This project seeks to close this gap, first by creating black-box methods that can be used for space-efficient similarity search in a far wider variety of settings, and then by extending known methods to achieve improved results. This project will be integrated into undergraduate courses and research opportunities at Williams College.The project seeks to solve this problem from several new directions. First, Fiat-Naor function inversion is a cryptographic technique giving a time-space tradeoff for inverting functions. Initial results show that Fiat-Naor inversion can be used to give a black-box result that improves the space usage of a wide variety of similarity-search algorithms. Even better, Fiat-Naor inversion can be integrated with known space-efficient similarity-search techniques to give improved query times using the same space. Furthermore, it appears that Fiat-Naor inversion interfaces particularly well with similarity search, and that tuning Fiat-Naor inversion to similarity search can give even better bounds. Second, the project will look at similarity search in the context of text strings. Similarity search on text strings has a rich literature of distinctive techniques tailor-made to the case of strings, generally using trie-based data structures. This project seeks to combine these techniques with more recent advances made in other areas (usually using hashing), to achieve better bounds. Finally, this project is examining heuristics for edit-distance similarity search, with the goal of matching or improving the current (space-inefficient) state of the art while retaining very small space requirements.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
给定一个大型数据集,如何找到与给定查询相似的项目? 预处理数据集以快速找到这些相似项称为“相似性搜索”。 相似性搜索是数据科学、机器学习和生物信息学应用中的一个基本计算问题。 相似性搜索在理论和实践中都得到了广泛的研究,并且现有技术已经高度优化。 不幸的是,许多先前的技术需要非常大量的额外存储空间来帮助快速回答查询。 这可能是一个重大限制,因为存储空间受到用于存储数据集的硬件的限制。 令人惊讶的是,节省空间的相似性搜索方法仅在少数受限的环境中进行了研究。 该项目旨在缩小这一差距,首先创建可用于在更广泛的环境中进行节省空间的相似性搜索的黑盒方法,然后扩展已知方法以实现改进的结果。 该项目将融入威廉姆斯学院的本科课程和研究机会。该项目力求从几个新的方向解决这个问题。 首先,Fiat-Naor 函数求逆是一种密码技术,为求逆函数提供了时空权衡。 初步结果表明,Fiat-Naor 反演可用于给出黑盒结果,从而提高各种相似性搜索算法的空间利用率。更好的是,Fiat-Naor 反演可以与已知的节省空间的相似性搜索技术集成,以使用相同的空间提供改进的查询时间。 此外,Fiat-Naor 反演与相似性搜索的接口似乎特别好,并且将 Fiat-Naor 反演调整为相似性搜索可以给出更好的界限。 其次,该项目将研究文本字符串上下文中的相似性搜索。 文本字符串的相似性搜索有丰富的文献,其中包含针对字符串情况量身定制的独特技术,通常使用基于 trie 的数据结构。 该项目旨在将这些技术与其他领域的最新进展(通常使用散列)相结合,以实现更好的边界。 最后,该项目正在研究编辑距离相似性搜索的启发式方法,其目标是匹配或改进当前(空间效率低下)的技术水平,同时保留非常小的空间要求。该奖项反映了 NSF 的法定使命,并被认为是值得的通过使用基金会的智力优势和更广泛的影响审查标准进行评估来获得支持。
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Telescoping Filter: A Practical Adaptive Filter
伸缩滤波器:实用的自适应滤波器
- DOI:10.4230/lipics.esa.2021.60
- 发表时间:2021-08
- 期刊:
- 影响因子:0
- 作者:Lee, David J.;McCauley, Samuel;Singh, Shikha;Stein, Ma
- 通讯作者:Stein, Ma
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Samuel McCauley其他文献
A Practical Adaptive Quotient Filter
实用的自适应商滤波器
- DOI:
- 发表时间:
2024-09-14 - 期刊:
- 影响因子:0
- 作者:
David J. Lee;Shikha Singh;Advisor;Samuel McCauley;Co - 通讯作者:
Co
Rational Proofs with Multiple Provers
多个证明者的理性证明
- DOI:
10.1145/2840728.2840744 - 发表时间:
2015-04-30 - 期刊:
- 影响因子:0
- 作者:
J. Chen;Samuel McCauley;Shikha Singh - 通讯作者:
Shikha Singh
Adaptive MapReduce Similarity Joins Extended
自适应 MapReduce 相似性连接扩展
- DOI:
- 发表时间:
2024-09-14 - 期刊:
- 影响因子:0
- 作者:
Samuel McCauley;Francesco Silvestri - 通讯作者:
Francesco Silvestri
Efficient Rational Proofs with Strong Utility-Gap Guarantees
具有强大效用缺口保证的高效理性证明
- DOI:
10.1007/978-3-319-99660-8_14 - 发表时间:
2018-07-03 - 期刊:
- 影响因子:0
- 作者:
Jing Chen;Samuel McCauley;Shikha Singh - 通讯作者:
Shikha Singh
Scheduling Parallel Jobs Online with Convex and Concave Parallelizability
具有凸凹并行性的在线并行作业调度
- DOI:
10.1007/s00224-016-9722-0 - 发表时间:
2015-09-17 - 期刊:
- 影响因子:0.5
- 作者:
Roozbeh Ebrahimi;Samuel McCauley;Benjamin Moseley - 通讯作者:
Benjamin Moseley
Samuel McCauley的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Samuel McCauley', 18)}}的其他基金
EAPSI:Facilitating cooperation between unreliable processors without direct communication
EAPSI:促进不可靠处理器之间无需直接通信的合作
- 批准号:
1414973 - 财政年份:2014
- 资助金额:
$ 14.87万 - 项目类别:
Fellowship Award
相似国自然基金
剪接因子U2AF1突变在急性髓系白血病原发耐药中的机制研究
- 批准号:82370157
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
U2AF2-circMMP1调控能量代谢促进结直肠癌肝转移的分子机制
- 批准号:82303789
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
间充质干细胞微粒通过U2AF1负调控pDC活化改善系统性红斑狼疮的机制研究
- 批准号:82302029
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
AF9通过ARRB2-MRGPRB2介导肠固有肥大细胞活化促进重症急性胰腺炎发生MOF的研究
- 批准号:82300739
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
H2S介导剪接因子BraU2AF65a的S-巯基化修饰促进大白菜开花的分子机制
- 批准号:32372727
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
相似海外基金
CRII: AF: RUI: New Frontiers in Fundamental Error-Correcting Codes
CRII:AF:RUI:基本纠错码的新领域
- 批准号:
2347371 - 财政年份:2024
- 资助金额:
$ 14.87万 - 项目类别:
Standard Grant
CRII: AF: RUI: Algorithmic Fairness for Computational Social Choice Models
CRII:AF:RUI:计算社会选择模型的算法公平性
- 批准号:
2348275 - 财政年份:2024
- 资助金额:
$ 14.87万 - 项目类别:
Standard Grant
CRII: AF: RUI: Breaking Ground on Circulant TSP
CRII:AF:RUI:循环 TSP 破土动工
- 批准号:
2153331 - 财政年份:2022
- 资助金额:
$ 14.87万 - 项目类别:
Standard Grant
CRII: AF: RUI: Markov Chains and Random Sampling on Graphs
CRII:AF:RUI:马尔可夫链和图上的随机采样
- 批准号:
2104795 - 财政年份:2021
- 资助金额:
$ 14.87万 - 项目类别:
Standard Grant
CRII: AF: RUI: Verifiable Computation Outsourcing: A Non-Cooperative Approach
CRII:AF:RUI:可验证计算外包:一种非合作方法
- 批准号:
1947789 - 财政年份:2020
- 资助金额:
$ 14.87万 - 项目类别:
Standard Grant