基于哈希的海量高维数据近似最近邻查询研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61472298
  • 项目类别:
    面上项目
  • 资助金额:
    80.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0202.系统软件、数据库与工业软件
  • 结题年份:
    2018
  • 批准年份:
    2014
  • 项目状态:
    已结题
  • 起止时间:
    2015-01-01 至2018-12-31

项目摘要

To address huge complexity of storage and computation that is brought about by large-scale high-dimensional data, we explore the hashing theory and its application in nearest neighbor search in this project. Though hashing technology is widely used as an effective method for compact representation of high-dimensional data, there still exists some drawbacks when dealing with approximate nearest neighbor search. Existing methods either obtains their efficiency in time by costing a huge amount of space or saves the space by sacrificing time. In this project, we first propose a novel version of approximate nearest neighbor problem, called I-th approximate nearest neighbor. Then, based on the analysis of the mechanism of hash mappings for high-dimensional data, we propose a computing model of hashing for approximate nearest neighbor search and build a framework of high-dimensional indexing and search based on linear order structures, in order to solve the issue of huge storage for existing methods. Finally, as for the hashed hamming space, we explore the mechanism of indexing and search for hamming distance and enhance the efficiency of nearest neighbor search in hamming space, as well as solve the high complexity of search for existing methods. In essence, there are two different solutions, "collision and filtering" and "compression and representation", for hashing to solve approximate nearest neighbor search, which could be combined together in this project. Its main feature is to bring about the efficiency in storage space and search time simultaneously and further satisfy the requirement of storage and search for large-scale high-dimensional data in the environment of big data.
本课题针对海量高维数据带来的存储、计算复杂度过高的问题,研究哈希理论及其在最近邻查询中的应用。哈希作为一种数据紧致表达的有效手段已经得到广泛应用,但是在处理近似最近邻查询时依然存在缺陷,现有方法或者以巨大的空间开销换取时间高效性,或者以时间开销节省存储空间。本课题首先针对最近邻查询,研究并提出一种返回近似第I个近邻的新型查询问题。其次,分析高维数据的哈希映射机理,提出面向近似最近邻查询的哈希计算模型,建立基于线序的高维向量空间索引与查询框架,解决现有方法存储开销巨大问题;最后,针对哈希映射后的海明空间,研究面向海明距离的索引与查询机理,实现海明空间中的高效最近邻查询,解决目前方法查询复杂度过高问题。本质上,哈希用于近似最近邻查询,存在"碰撞"过滤和压缩表达两种截然不同的解决思路,本课题融合两种思路,其特色是同时实现存储空间和查询时间的高效性,满足大数据环境下海量高维数据的存储和查询需求。

结项摘要

本课题针对海量高维数据带来的存储、计算复杂度过高的问题,研究哈希理论及最近邻查询方法,突破“海量高维数据的高效表达与近似计算”和“海明空间索引与查询机理”两个关键科学问题,并将这些理论成果迁移至复杂网络数据的高效管理与挖掘、大规模图像数据的紧致表达与检索以及复杂数据的安全计算与检索三个领域。项目组首先提出面向运动对象的近邻检索方法,优化基于聚类的高维数据近邻检索方法,建立新的基于 LSH 的高效索引机制,从而进一步提升了海量高维数据的索引和检索效率;紧接着将海量高维数据的索引机制引入网络数据管理中,提升了网络数据的组织管理效率,从而更好的实现一种典型网络数据(社会数据)的挖掘;为了进一步提升图像检索的效率,项目组针对灰度直方图、BOF特征等设计了新型的紧致表达方法,基于矩特征设计了高效的图像分类方法,再进一步结合项目组提出的海量高维数据索引技术,提升图像检索和分类的效率;最后,项目组成员依托于基于LSH的高效索引机制,提出了面向文本、地理信息数据和高维数据等不同应用于场景的安全检索方法,设计了通用的距离度量机制的安全计算方法和加密数据的高效安全访问方法,较为系统的结局了复杂数据的安全计算与检索问题。.项目组通过四年的持续深耕,共计发表论文 24 篇,其中 CCF Rank A / 中科院 I 区论文 3 篇,中科院 II 区论文 8 篇, CCF Rank B 会议论文 1 篇;新增申请发明专利 7 项,新增授权发明专利 6 项,其中新增申请并授权专利 3 项;培养已毕业博士生4人,已毕业硕士生25人。本课题的顺利开展为“海量高维数据的最近邻查询”的理论研究与实际成果转化奠定了技术基础。

项目成果

期刊论文数量(20)
专著数量(0)
科研奖励数量(5)
会议论文数量(4)
专利数量(13)
Effective optimizations of cluster-based nearest neighbor search in high-dimensional space
高维空间中基于簇的最近邻搜索的有效优化
  • DOI:
    10.1007/s00530-014-0444-3
  • 发表时间:
    2014-12
  • 期刊:
    Multimedia Systems
  • 影响因子:
    3.9
  • 作者:
    Xiaokang Feng;Jiangtao Cui;Yingfan Liu;Hui Li
  • 通讯作者:
    Hui Li
Social Influence Study in Online Networks: A Three-Level Review
在线网络中的社会影响力研究:三级回顾
  • DOI:
    10.1007/s11390-015-1512-7
  • 发表时间:
    2015-01
  • 期刊:
    Journal of Computer Science and Technology
  • 影响因子:
    0.7
  • 作者:
    Hui Li;Jiangtao Cui;Jianfeng Ma
  • 通讯作者:
    Jianfeng Ma
hOPE: improved order preserving encryption with the power to homomorphic operations of ciphertexts
hOPE:改进的保序加密,具有密文同态运算的能力
  • DOI:
    10.1007/s11432-016-0242-7
  • 发表时间:
    2017
  • 期刊:
    Science China Information Sciences
  • 影响因子:
    --
  • 作者:
    Yanguo Peng;Hui Li;Jiangtao Cui;Junwei Zhang;Jianfeng Ma;Changgen Peng
  • 通讯作者:
    Changgen Peng
PINOCCHIO: Probabilistic Influence-based Location Selection over Moving Objects
PINOCCHIO:移动物体上基于概率影响的位置选择
  • DOI:
    10.1109/icde.2017.17
  • 发表时间:
    2017-01-01
  • 期刊:
    2017 IEEE 33RD INTERNATIONAL CONFERENCE ON DATA ENGINEERING (ICDE 2017)
  • 影响因子:
    --
  • 作者:
    Wang, Meng;Li, Hui;Dong, Zhenhua
  • 通讯作者:
    Dong, Zhenhua
An Efficient LSH Index on Discriminative Short Codes for High-dimensional Nearest Neighbors
高维最近邻判别短码的高效 LSH 索引
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    Multimedia Tools and Applications
  • 影响因子:
    3.6
  • 作者:
    Xiaokang Feng;Jiangtao Cui;Hui Li;Yingfan Liu
  • 通讯作者:
    Yingfan Liu

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于最优排序的局部敏感哈希索引
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    计算机学报
  • 影响因子:
    --
  • 作者:
    冯小康;彭延国;崔江涛;刘英帆;李辉
  • 通讯作者:
    李辉
参数可调的通用半正交图像矩模型
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    中国图象图形学报
  • 影响因子:
    --
  • 作者:
    何冰;崔江涛;肖斌;彭延国
  • 通讯作者:
    彭延国
一种基于椭圆体聚类的高维索引方法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    模式识别与人工智能
  • 影响因子:
    --
  • 作者:
    郭勇;崔江涛;周水生
  • 通讯作者:
    周水生
基于联合聚类的超立方体高维索引
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    计算机科学与探索
  • 影响因子:
    --
  • 作者:
    刘英帆;崔江涛
  • 通讯作者:
    崔江涛
采用动态主分量距离测度的视频索引技术
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    西安电子科技大学学报
  • 影响因子:
    --
  • 作者:
    崔江涛;李广鑫;郭勇
  • 通讯作者:
    郭勇

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

崔江涛的其他基金

云原生数据库自适应查询优化研究
  • 批准号:
    62372352
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
面向空间运动对象的位置推荐技术研究
  • 批准号:
    61976168
  • 批准年份:
    2019
  • 资助金额:
    63 万元
  • 项目类别:
    面上项目
基于统计流形的局部视觉特征层次化索引研究
  • 批准号:
    61173089
  • 批准年份:
    2011
  • 资助金额:
    55.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码