大规模序列数据集的压缩索引与搜索算法研究
项目介绍
AI项目解读
基本信息
- 批准号:61373044
- 项目类别:面上项目
- 资助金额:75.0万
- 负责人:
- 依托单位:
- 学科分类:F0201.计算机科学的基础理论
- 结题年份:2017
- 批准年份:2013
- 项目状态:已结题
- 起止时间:2014-01-01 至2017-12-31
- 项目参与者:Jeffrey S· Vitter; 郭鸿志; 于强; 张懿璞; 郭海涛; 严苗苗; 孙春晓; 陈龙刚; 李龙;
- 关键词:
项目摘要
Proliferation of data at massive scales poses serious new challenges in terms of storing, managing, retrieving, and mining intelligent information from data. Aimed at improving the performance of storing, indexing and searching for large-scale data as the basic goal, we focus in this project on proposing space-efficient wavelet tree construction and developing generic library package of wavelet trees, hoping to offer the supports in the data structures for large-scale applications. Secondly, based on the wavelet tree, the efficient compressed representation of neighbor function phi of compressed suffix array is established and space-efficient compressed suffix array construction algorithm is proposed. Thirdly, we create the wavelet tree construction algorithm in external memory so that each rank and select can be done in logarithmic time with base B, where B is the block transfer size in the external memory model. Fourthly, combining various approximation metrics like edit distance and hamming distance, we establish an I/O efficient compressed index, supporting phrases searching and top-k query. Finally, we develop a prototype for the large-scale text retrieval system in external memory on TPIE. The project will build new theoretical foundations in the field of massive data processing, with applications to fields like databases and information retrieval. It will drive forward current state of the art in web search engine technology (by impacting the way inverted indexes are used).
大规模数据的激增为存储、管理、检索和从数据挖掘智能信息提出了新的挑战。本项目以改善大规模数据的存储、索引和搜索的性能为基本目标,首先,提出空间高效的小波树构造算法,开发出小波树构造通用类库,为大规模数据处理应用研究提供数据结构上的支持;其次,建立基于小波树的压缩后缀数组近邻函数phi的高效压缩表示方法,提出空间高效的压缩后缀数组构造算法;再次,提出外存模型上的小波树构造算法,达到rank和select操作可在以B为底的对数时间内完成,其中B为外存模型中的块传输大小;然后,结合多种近似测度(如编辑距离、海明距离),建立I/O高效的支持短语搜索的压缩索引,回答top-k查询;最后,基于TPIE平台,开发外存模型上的压缩索引系统原型。该项目将在大规模数据处理领域建立新的理论,并可应用于数据库和信息检索等领域。这将有望推动Web搜索引擎技术(影响倒排索引的使用方式)。
结项摘要
(1) 项目的背景. 大数据的激增为存储、检索和从数据搜索可用信息提出了新的挑战。项目期望从压缩索引这样一个新的视觉来研究大数据的存储、检索和搜索问题。这包括大规模文本数据集的压缩索引的基础理论与方法、简明数据结构设计、压缩索引上的高效模式查询。.(2) 主要研究内容. 本项目主要研究大规模文本数据集的压缩索引的基本理论与方法;建立空间高效的压缩索引理论框架,提出高效的压缩后缀数组构造算法及支持高效查询的简明数据结构。.(3) 重要结果. 在压缩索引的基础理论和方法方面做出了较好的工作。主要包括:提出了一种高阶熵压缩的全文自索引,压缩索引占用2nHk + n + o(n)位的空间;提出了线性时间压缩索引构造算法。建立了基于BWT变换和小波树的最优压缩索引构造理论框架,压缩索引使用nHk + o(n) log \sigma + o(nHk)位的空间;提出了压缩索引上高效的查询算法。提出了首个实用外存简明文本索引,该索引占用O(n log \sigma)位的空间,执行一次模式匹配查询最坏情况下的I/O复杂度为O(|P|/B + log_B n log_\sigma n + √(n/B) + occ/B),其中B是磁盘块大小,occ是输出点数。建立了图数据库搜索的压缩数据结构理论。.(4) 关键数据及科学意义. 我们在本领域重要刊物IEEE/ACM Transactions on Computational Biology and Bioinformatics (JCR = 2)和BMC Bioinformatics (JCR = 2),重要会议IEEE Data Compression Conference (CCF B类会议)和ACM-SIAM Proceedings of the Algorithm Engineering and Experiments (ALENEX) (算法工程重要会议)等发表了15篇论文(其中10篇为刊物论文,5篇为会议论文),SCI检索8篇,EI检索7篇。此外,还有3篇论文已投顶级刊物在审。开发了可在GitHub上访问的压缩索引软件.(https://github.com/hongweihuo-lab)。这些研究成果为进一步研究大规模图数据库的压缩索引与搜索,高通量测序数据集的结构模式发现,在基因组水平上探索基因的表
项目成果
期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(0)
PairMotifChIP: A Fast Algorithm for Discovery of Patterns Conserved in Large ChIP-seq Data Sets.
PairMotifChIP:一种用于发现大型 ChIP-seq 数据集中保守模式的快速算法
- DOI:10.1155/2016/4986707
- 发表时间:2016
- 期刊:BioMed research international
- 影响因子:--
- 作者:Yu Q;Huo H;Feng D
- 通讯作者:Feng D
Efficient Graph Similarity Search in External Memory
外部存储器中的高效图形相似性搜索
- DOI:10.1109/access.2017.2682107
- 发表时间:2017-01-01
- 期刊:IEEE ACCESS
- 影响因子:3.9
- 作者:Chen, Xiaoyang;Huo, Hongwei;Vitter, Jeffrey Scott
- 通讯作者:Vitter, Jeffrey Scott
An Efficient Algorithm for Discovering Motifs in Large DNA Data Sets
一种在大型 DNA 数据集中发现基序的有效算法
- DOI:10.1109/tnb.2015.2421340
- 发表时间:2015-07-01
- 期刊:IEEE TRANSACTIONS ON NANOBIOSCIENCE
- 影响因子:3.9
- 作者:Yu, Qiang;Huo, Hongwei;Huan, Jun
- 通讯作者:Huan, Jun
An Efficient Exact Algorithm for the Motif Stem Search Problem over Large Alphabets
大字母基序词干搜索问题的高效精确算法
- DOI:10.1109/tcbb.2014.2361668
- 发表时间:2015-03-01
- 期刊:IEEE-ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS
- 影响因子:4.5
- 作者:Yu,Qiang;Huo,Hongwei;Nekrich,Yakov
- 通讯作者:Nekrich,Yakov
RefSelect: a reference sequence selection algorithm for planted (l, d) motif search.
RefSelect:用于植入(l,d)基序搜索的参考序列选择算法
- DOI:10.1186/s12859-016-1130-6
- 发表时间:2016-07-19
- 期刊:BMC bioinformatics
- 影响因子:3
- 作者:Yu Q;Huo H;Zhao R;Feng D;Vitter JS;Huan J
- 通讯作者:Huan J
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
用于转录因子结合位点识别的定位投影求精算法
- DOI:--
- 发表时间:2013
- 期刊:计算机学报
- 影响因子:--
- 作者:张懿璞;霍红卫;于强;郭鸿志
- 通讯作者:郭鸿志
SegHMC:一种基于Segmental HMM模型的顺式调控模块识别算法
- DOI:10.16383/j.aas.2016.c150309
- 发表时间:2016-11
- 期刊:自动化学报
- 影响因子:--
- 作者:郭海涛;霍红卫;于强
- 通讯作者:于强
基于最大团求精的随机投影模体发现算法
- DOI:--
- 发表时间:2013
- 期刊:中国科技论文
- 影响因子:--
- 作者:霍红卫;于强;牛伟
- 通讯作者:牛伟
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
霍红卫的其他基金
泛基因组的高阶熵压缩索引与检索
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
多核系统下调控模式识别的MapReduce模型及算法研究
- 批准号:61173025
- 批准年份:2011
- 资助金额:55.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}