大规模序列数据集的压缩索引与搜索算法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61373044
  • 项目类别:
    面上项目
  • 资助金额:
    75.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0201.计算机科学的基础理论
  • 结题年份:
    2017
  • 批准年份:
    2013
  • 项目状态:
    已结题
  • 起止时间:
    2014-01-01 至2017-12-31

项目摘要

Proliferation of data at massive scales poses serious new challenges in terms of storing, managing, retrieving, and mining intelligent information from data. Aimed at improving the performance of storing, indexing and searching for large-scale data as the basic goal, we focus in this project on proposing space-efficient wavelet tree construction and developing generic library package of wavelet trees, hoping to offer the supports in the data structures for large-scale applications. Secondly, based on the wavelet tree, the efficient compressed representation of neighbor function phi of compressed suffix array is established and space-efficient compressed suffix array construction algorithm is proposed. Thirdly, we create the wavelet tree construction algorithm in external memory so that each rank and select can be done in logarithmic time with base B, where B is the block transfer size in the external memory model. Fourthly, combining various approximation metrics like edit distance and hamming distance, we establish an I/O efficient compressed index, supporting phrases searching and top-k query. Finally, we develop a prototype for the large-scale text retrieval system in external memory on TPIE. The project will build new theoretical foundations in the field of massive data processing, with applications to fields like databases and information retrieval. It will drive forward current state of the art in web search engine technology (by impacting the way inverted indexes are used).
大规模数据的激增为存储、管理、检索和从数据挖掘智能信息提出了新的挑战。本项目以改善大规模数据的存储、索引和搜索的性能为基本目标,首先,提出空间高效的小波树构造算法,开发出小波树构造通用类库,为大规模数据处理应用研究提供数据结构上的支持;其次,建立基于小波树的压缩后缀数组近邻函数phi的高效压缩表示方法,提出空间高效的压缩后缀数组构造算法;再次,提出外存模型上的小波树构造算法,达到rank和select操作可在以B为底的对数时间内完成,其中B为外存模型中的块传输大小;然后,结合多种近似测度(如编辑距离、海明距离),建立I/O高效的支持短语搜索的压缩索引,回答top-k查询;最后,基于TPIE平台,开发外存模型上的压缩索引系统原型。该项目将在大规模数据处理领域建立新的理论,并可应用于数据库和信息检索等领域。这将有望推动Web搜索引擎技术(影响倒排索引的使用方式)。

结项摘要

(1) 项目的背景. 大数据的激增为存储、检索和从数据搜索可用信息提出了新的挑战。项目期望从压缩索引这样一个新的视觉来研究大数据的存储、检索和搜索问题。这包括大规模文本数据集的压缩索引的基础理论与方法、简明数据结构设计、压缩索引上的高效模式查询。.(2) 主要研究内容. 本项目主要研究大规模文本数据集的压缩索引的基本理论与方法;建立空间高效的压缩索引理论框架,提出高效的压缩后缀数组构造算法及支持高效查询的简明数据结构。.(3) 重要结果. 在压缩索引的基础理论和方法方面做出了较好的工作。主要包括:提出了一种高阶熵压缩的全文自索引,压缩索引占用2nHk + n + o(n)位的空间;提出了线性时间压缩索引构造算法。建立了基于BWT变换和小波树的最优压缩索引构造理论框架,压缩索引使用nHk + o(n) log \sigma + o(nHk)位的空间;提出了压缩索引上高效的查询算法。提出了首个实用外存简明文本索引,该索引占用O(n log \sigma)位的空间,执行一次模式匹配查询最坏情况下的I/O复杂度为O(|P|/B + log_B n log_\sigma n + √(n/B) + occ/B),其中B是磁盘块大小,occ是输出点数。建立了图数据库搜索的压缩数据结构理论。.(4) 关键数据及科学意义. 我们在本领域重要刊物IEEE/ACM Transactions on Computational Biology and Bioinformatics (JCR = 2)和BMC Bioinformatics (JCR = 2),重要会议IEEE Data Compression Conference (CCF B类会议)和ACM-SIAM Proceedings of the Algorithm Engineering and Experiments (ALENEX) (算法工程重要会议)等发表了15篇论文(其中10篇为刊物论文,5篇为会议论文),SCI检索8篇,EI检索7篇。此外,还有3篇论文已投顶级刊物在审。开发了可在GitHub上访问的压缩索引软件.(https://github.com/hongweihuo-lab)。这些研究成果为进一步研究大规模图数据库的压缩索引与搜索,高通量测序数据集的结构模式发现,在基因组水平上探索基因的表

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(0)
PairMotifChIP: A Fast Algorithm for Discovery of Patterns Conserved in Large ChIP-seq Data Sets.
PairMotifChIP:一种用于发现大型 ChIP-seq 数据集中保守模式的快速算法
  • DOI:
    10.1155/2016/4986707
  • 发表时间:
    2016
  • 期刊:
    BioMed research international
  • 影响因子:
    --
  • 作者:
    Yu Q;Huo H;Feng D
  • 通讯作者:
    Feng D
Efficient Graph Similarity Search in External Memory
外部存储器中的高效图形相似性搜索
  • DOI:
    10.1109/access.2017.2682107
  • 发表时间:
    2017-01-01
  • 期刊:
    IEEE ACCESS
  • 影响因子:
    3.9
  • 作者:
    Chen, Xiaoyang;Huo, Hongwei;Vitter, Jeffrey Scott
  • 通讯作者:
    Vitter, Jeffrey Scott
An Efficient Algorithm for Discovering Motifs in Large DNA Data Sets
一种在大型 DNA 数据集中发现基序的有效算法
  • DOI:
    10.1109/tnb.2015.2421340
  • 发表时间:
    2015-07-01
  • 期刊:
    IEEE TRANSACTIONS ON NANOBIOSCIENCE
  • 影响因子:
    3.9
  • 作者:
    Yu, Qiang;Huo, Hongwei;Huan, Jun
  • 通讯作者:
    Huan, Jun
An Efficient Exact Algorithm for the Motif Stem Search Problem over Large Alphabets
大字母基序词干搜索问题的高效精确算法
  • DOI:
    10.1109/tcbb.2014.2361668
  • 发表时间:
    2015-03-01
  • 期刊:
    IEEE-ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS
  • 影响因子:
    4.5
  • 作者:
    Yu,Qiang;Huo,Hongwei;Nekrich,Yakov
  • 通讯作者:
    Nekrich,Yakov
RefSelect: a reference sequence selection algorithm for planted (l, d) motif search.
RefSelect:用于植入(l,d)基序搜索的参考序列选择算法
  • DOI:
    10.1186/s12859-016-1130-6
  • 发表时间:
    2016-07-19
  • 期刊:
    BMC bioinformatics
  • 影响因子:
    3
  • 作者:
    Yu Q;Huo H;Zhao R;Feng D;Vitter JS;Huan J
  • 通讯作者:
    Huan J

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

用于转录因子结合位点识别的定位投影求精算法
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    计算机学报
  • 影响因子:
    --
  • 作者:
    张懿璞;霍红卫;于强;郭鸿志
  • 通讯作者:
    郭鸿志
SegHMC:一种基于Segmental HMM模型的顺式调控模块识别算法
  • DOI:
    10.16383/j.aas.2016.c150309
  • 发表时间:
    2016-11
  • 期刊:
    自动化学报
  • 影响因子:
    --
  • 作者:
    郭海涛;霍红卫;于强
  • 通讯作者:
    于强
基于最大团求精的随机投影模体发现算法
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    中国科技论文
  • 影响因子:
    --
  • 作者:
    霍红卫;于强;牛伟
  • 通讯作者:
    牛伟

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

霍红卫的其他基金

泛基因组的高阶熵压缩索引与检索
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    54 万元
  • 项目类别:
    面上项目
多核系统下调控模式识别的MapReduce模型及算法研究
  • 批准号:
    61173025
  • 批准年份:
    2011
  • 资助金额:
    55.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码