Efficient Data Structures and Algorithms for Genomics Sequence Data
基因组序列数据的高效数据结构和算法
基本信息
- 批准号:7987503
- 负责人:
- 金额:$ 17.69万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2010
- 资助国家:美国
- 起止时间:2010-09-30 至 2013-09-29
- 项目状态:已结题
- 来源:
- 关键词:AccountingAddressAlgorithmsAutomobile DrivingBacteriaBase SequenceBinding SitesBioinformaticsBiological SciencesBiologyCollaborationsCommunicationComputer softwareComputing MethodologiesCopy Number PolymorphismDNA BindingDNA ResequencingDataData CompressionData SetDatabasesDetectionDiploidyEvolutionFoundationsFutureGenbankGene ExpressionGene Expression RegulationGeneticGenomeGenomicsHumanHuman GenomeIndividualInternetLifeMeasuresMedicineMessenger RNAMethodsMicroarray AnalysisMissionOrganismPrivacyProcessProtocols documentationPublicationsScientistSecureSecuritySingle Nucleotide PolymorphismSmall RNASolidStructureTechnologyTestingTextTranscription factor genesVirusYeastsdigitaldriving forceencryptionfile formatgenome sequencingmanmitochondrial genomeresearch studyscale uptooltransmission processtrend
项目摘要
DESCRIPTION (provided by applicant): The long-term objective of this project is to develop and deploy efficient data structures and algorithms for the storage, transmission, querying, privacy protection, and management of large-scale High-Throughput Sequencing (HTS) and genomic information. HTS technologies are in the process of driving profound, revolutionary, changes in biology and medicine. They are becoming the tool of choice for addressing fundamental questions in biology, from evolution to gene regulation, and for providing the foundation to the personalized medicine of tomorrow, as it becomes possible to cheaply resequence individual genomes. A project to sequence 1,000 human genomes is well underway and soon it will be possible to sequence a human genome for less than $1,000. In addition to the obvious challenges to understand the structure, function, and evolution of genomes, modern high-throughput genome sequencing methods also raise questions about how to efficiently represent, store, transmit, query, and protect the privacy of genomic sequence information. Currently, HTS and genome data are typically stored using a flat-text file format which is inefficient not only in terms of storage capacity and communication bandwidth, but also in terms of information extraction and security. The proposed effort aims at removing this fundamental bottleneck and address the genomic data deluge by: (1) Developing efficient data structures and compression algorithms for HTS and genomic data that support also rapid extraction and protection of genomic information, with compression factors for genomic data in the range of 1,000 and beyond; (2) Developing security and privacy preserving algorithms and protocols to protect genomic data; (3) Implementing and testing these data structures, protocols, and algorithms on a variety of data including HTS data from different HTS technologies (e.g. Solexa, SOLiD, 454), individual human mitochondrial genome data (e.g. the MITOMAP database), individual human SNP data (e.g. dbSNP), and individual human genome data (e.g. The 1000 Genome Project); and (3) Validating and deploying the technology through multiple channels, from publications, to Web servers, to distribution of optimized software, to collaborations with life- scientists, HTS companies, and large sequencing centers.
描述(由申请人提供):该项目的长期目标是开发和部署有效的数据结构和算法,用于存储,传输,查询,隐私保护以及管理大型高通量测序(HTS)和基因组信息。 HTS技术正在推动深刻,革命性的生物学和医学变化。它们正在成为解决生物学基本问题,从进化到基因调节的首选工具,并为明天的个性化医学奠定了基础,因为有可能便宜地重新恢复个体基因组。一个对1,000个人类基因组进行序列的项目正在进行中,很快就有可能以不到1,000美元的价格对人类基因组进行测序。除了了解基因组的结构,功能和演变所面临的明显挑战外,现代的高通量基因组测序方法还引发了有关如何有效代表,存储,传输,查询和保护基因组序列信息隐私的问题。当前,HTS和基因组数据通常是使用平面文件格式存储的,该格式不仅在存储容量和通信带宽方面效率低下,而且在信息提取和安全性方面也是如此。提出的努力旨在消除这种基本瓶颈,并通过以下方式解决基因组数据洪水量:(1)为HTS开发有效的数据结构和压缩算法,以及支持基因组信息的快速提取和保护基因组信息的基因组数据,并具有1,000和超越范围内基因组数据的压缩因子; (2)开发保存算法和协议以保护基因组数据的安全性和隐私性; (3)在各种数据上实施和测试这些数据结构,协议和算法,包括来自不同HTS技术的HTS数据(例如Solexa,Solid,454),单个人类人体线粒体基因组数据(例如,MITOMAP数据库),个体人类SNP数据(例如,人类SNP数据)(例如,人类dbsnp)和个人基因组合(E. (3)通过多个渠道验证和部署技术,从出版物到网络服务器,再到优化软件的分发,再到与生活科学家,HTS公司和大型测序中心的合作。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Pierre Baldi其他文献
Pierre Baldi的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Pierre Baldi', 18)}}的其他基金
Bioinformatics Omic Platform for Circadian Biomedical Research
用于昼夜节律生物医学研究的生物信息学组学平台
- 批准号:
10659644 - 财政年份:2017
- 资助金额:
$ 17.69万 - 项目类别:
UCI BIT Undergraduate Summer Research (BIT-SR) Program
UCI BIT 本科生暑期研究 (BIT-SR) 项目
- 批准号:
8281431 - 财政年份:2011
- 资助金额:
$ 17.69万 - 项目类别:
UCI BIT Undergraduate Summer Research (BIT-SR) Program
UCI BIT 本科生暑期研究 (BIT-SR) 项目
- 批准号:
8217026 - 财政年份:2011
- 资助金额:
$ 17.69万 - 项目类别:
UCI BIT Undergraduate Summer Research (BIT-SR) Program
UCI BIT 本科生暑期研究 (BIT-SR) 项目
- 批准号:
8665482 - 财政年份:2011
- 资助金额:
$ 17.69万 - 项目类别:
Efficient Data Structures and Algorithms for Genomics Sequence Data
基因组序列数据的高效数据结构和算法
- 批准号:
8138561 - 财政年份:2010
- 资助金额:
$ 17.69万 - 项目类别:
Efficient Data Structures and Algorithms for Genomics Sequence Data
基因组序列数据的高效数据结构和算法
- 批准号:
8326115 - 财政年份:2010
- 资助金额:
$ 17.69万 - 项目类别:
相似国自然基金
时空序列驱动的神经形态视觉目标识别算法研究
- 批准号:61906126
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
本体驱动的地址数据空间语义建模与地址匹配方法
- 批准号:41901325
- 批准年份:2019
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
大容量固态硬盘地址映射表优化设计与访存优化研究
- 批准号:61802133
- 批准年份:2018
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
IP地址驱动的多径路由及流量传输控制研究
- 批准号:61872252
- 批准年份:2018
- 资助金额:64.0 万元
- 项目类别:面上项目
针对内存攻击对象的内存安全防御技术研究
- 批准号:61802432
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Bayesian Statistical Learning for Robust and Generalizable Causal Inferences in Alzheimer Disease and Related Disorders Research
贝叶斯统计学习在阿尔茨海默病和相关疾病研究中进行稳健且可推广的因果推论
- 批准号:
10590913 - 财政年份:2023
- 资助金额:
$ 17.69万 - 项目类别:
Predicting firearm suicide in military veterans outside the VA health system using linked civilian electronic health record data
使用链接的民用电子健康记录数据预测退伍军人管理局卫生系统外退伍军人的枪支自杀
- 批准号:
10655968 - 财政年份:2023
- 资助金额:
$ 17.69万 - 项目类别:
Deep Learning Based Natural Language Processing Markers of Anxiety and Depression
基于深度学习的自然语言处理的焦虑和抑郁标记
- 批准号:
10723819 - 财政年份:2023
- 资助金额:
$ 17.69万 - 项目类别:
Fair risk profiles and predictive models for outcomes of obstructive sleep apnea through electronic medical record data
通过电子病历数据对阻塞性睡眠呼吸暂停结果进行公平的风险概况和预测模型
- 批准号:
10678108 - 财政年份:2023
- 资助金额:
$ 17.69万 - 项目类别:
Mining minority enriched AllofUs data for innovative ethnic specific risk prediction modeling
挖掘少数族裔丰富的 AllofUs 数据,用于创新的种族特定风险预测模型
- 批准号:
10798514 - 财政年份:2023
- 资助金额:
$ 17.69万 - 项目类别: