Enhancing open data sharing for functional genomics experiments: Measures to quantify genomic information leakage and file formats for privacy preservation
加强功能基因组学实验的开放数据共享:量化基因组信息泄漏的措施和保护隐私的文件格式
基本信息
- 批准号:10251876
- 负责人:
- 金额:$ 52.65万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2020
- 资助国家:美国
- 起止时间:2020-09-02 至 2025-06-30
- 项目状态:未结题
- 来源:
- 关键词:3-DimensionalAddressAlgorithmsAssessment toolBiologyChIP-seqCodeComputer softwareConsentDNA sequencingDataData FilesData ScienceData SetDatabasesDietDiseaseEnvironmentEquilibriumExtravasationFutureGene ExpressionGenesGeneticGenetic TranscriptionGenomeGenomicsGenotypeGenotype-Tissue Expression ProjectGleanHi-CHumanIndividualInstitutesLawsLearningLettersLife StyleLinkMachine LearningMalignant NeoplasmsMapsMeasuresMedical ResearchMethodologyMethodsMiningMotivationParticipantPatientsPhenotypePositioning AttributePredispositionPrivacyPrivatizationProceduresProcessProtein IsoformsProtocols documentationProviderPythonsQuantitative Trait LociRNA SplicingResearch PersonnelRiskRisk AssessmentSamplingSequence AlignmentSignal TransductionSingle Nucleotide PolymorphismSmokerSourceStructureTechniquesThe Cancer Genome AtlasTissuesVariantbaseclinically relevantcomputerized data processingdata miningdata sharingexperimental studyfile formatfunctional genomicsgenome sequencinggenomic datahuman tissueinterestlarge datasetsmicrobialmicrobiomeopen dataprivacy preservationsocialtooltranscriptome sequencing
项目摘要
Project Summary/Abstract: With the surge of large genomics data, there is an immense increase in the
breadth and depth of different omics datasets and an increasing importance in the topic of privacy of
individuals in genomic data science. Detailed genetic and environmental characterization of diseases and
conditions relies on the large-scale mining of functional genomics data; hence, there is great desire to share
data as broadly as possible. However, there is a scarcity of privacy studies focused on such data. A key
first step in reducing private information leakage is to measure the amount of information leakage in
functional genomics data, particularly in different data file types. To this end, we propose to to derive
information-theoretic measures for private information leakage in different data types from functional
genomics data. We will also develop various file formats to reduce this leakage during sharing. We will
approach the privacy analysis under three aims. First, we will develop statistical metrics that can be used to
quantify the sensitive information leakage from raw reads. We will systematically analyze how linking attacks
can be instantiated using various genotyping methods such as single nucleotide variant and structural
variant calling from raw reads, signal profiles, Hi-C interaction matrices, and gene expression matrices.
Second, we will study different algorithms to implement privacy-preserving transformations to the functional
genomics data in various forms. Particularly, we will create privacy-preserving file formats for raw sequence
alignment maps, signal track files, three-dimensional interaction matrices, and gene expression
quantification matrices that contain information from multiple individuals. This will allow us to study the
sources of sensitive information leakages other than raw reads, for example signal profiles, splicing and
isoform transcription, and abnormal three-dimensional genomic interactions. Third, we will investigate the
reads that can be mapped to the microbiome in the raw human functional genomics datasets. We will use
inferred microbial information to characterize private information about individuals, and then combine the
microbial information with the information from human mapped reads to increase the re-identification
accuracy in the linking attacks described in the second aim. We will use the tools to quantify the sensitive
information and privacy-preserving file formats in the available datasets from large sequencing projects,
such as the ENCODE, The Cancer Genome Atlas, 1,000 Genomes, gEUVADIS, and Genotype-Tissue
Expression projects.
项目摘要/摘要:随着大型基因组学数据的激增,
不同组学数据集的广度和深度以及隐私主题的重要性日益增加
基因组数据科学领域的个人。疾病的详细遗传和环境特征
条件依赖于功能基因组数据的大规模挖掘;因此,有强烈的分享愿望
尽可能广泛的数据。然而,针对此类数据的隐私研究却很少。一把钥匙
减少私人信息泄露的第一步是衡量信息泄露量
功能基因组学数据,特别是不同数据文件类型的数据。为此,我们建议推导出
不同数据类型中隐私信息泄露的信息论方法
基因组学数据。我们还将开发各种文件格式来减少共享过程中的这种泄漏。我们将
根据三个目标进行隐私分析。首先,我们将开发可用于
量化原始读取中的敏感信息泄漏。我们将系统分析链接攻击是如何进行的
可以使用各种基因分型方法来实例化,例如单核苷酸变异和结构
来自原始读数、信号图谱、Hi-C 相互作用矩阵和基因表达矩阵的变体调用。
其次,我们将研究不同的算法来实现对功能的隐私保护转换
各种形式的基因组学数据。特别是,我们将为原始序列创建保护隐私的文件格式
比对图、信号轨迹文件、三维交互矩阵和基因表达
包含来自多个个体的信息的量化矩阵。这将使我们能够研究
除原始读取之外的敏感信息泄漏源,例如信号配置文件、拼接和
同工型转录和异常的三维基因组相互作用。第三,我们将调查
可以映射到原始人类功能基因组数据集中的微生物组的读数。我们将使用
推断微生物信息来表征个人的私人信息,然后结合
微生物信息与人类映射读数的信息,以增加重新识别
第二个目标中描述的链接攻击的准确性。我们将使用这些工具来量化敏感的
大型测序项目的可用数据集中的信息和隐私保护文件格式,
例如 ENCODE、癌症基因组图谱、1,000 个基因组、gEUVADIS 和 Genotype-Tissue
表达项目。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Mark Bender Gerstein其他文献
Mark Bender Gerstein的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Mark Bender Gerstein', 18)}}的其他基金
1/2 Discovery and validation of neuronal enhancers associated with the development of psychiatric disorders
1/2 与精神疾病发展相关的神经元增强剂的发现和验证
- 批准号:
10801125 - 财政年份:2023
- 资助金额:
$ 52.65万 - 项目类别:
Laboratory, Data Analysis, and Coordinating Center (LDACC) for the Developmental Human Genotype-Tissue Expression Project
人类发育基因型组织表达项目实验室、数据分析和协调中心 (LDACC)
- 批准号:
10709553 - 财政年份:2021
- 资助金额:
$ 52.65万 - 项目类别:
Integrative analysis of genomics and imaging data from the BRAIN Initiative and other public data sources
对来自 BRAIN Initiative 和其他公共数据源的基因组学和成像数据进行综合分析
- 批准号:
10190025 - 财政年份:2021
- 资助金额:
$ 52.65万 - 项目类别:
Laboratory, Data Analysis, and Coordinating Center (LDACC) for the Developmental Human Genotype-Tissue Expression Project
人类发育基因型组织表达项目实验室、数据分析和协调中心 (LDACC)
- 批准号:
10306961 - 财政年份:2021
- 资助金额:
$ 52.65万 - 项目类别:
The Y-SCORCH Data Generation Center at Yale for Single-Cell Opioid Responses in the Context of HIV
耶鲁大学 Y-SCORCH 数据生成中心用于艾滋病毒背景下的单细胞阿片类药物反应
- 批准号:
10461029 - 财政年份:2020
- 资助金额:
$ 52.65万 - 项目类别:
The Y-SCORCH Data Generation Center at Yale for Single-Cell Opioid Responses in the Context of HIV
耶鲁大学 Y-SCORCH 数据生成中心用于艾滋病毒背景下的单细胞阿片类药物反应
- 批准号:
10685384 - 财政年份:2020
- 资助金额:
$ 52.65万 - 项目类别:
The Y-SCORCH Data Generation Center at Yale for Single-Cell Opioid Responses in the Context of HIV
耶鲁大学 Y-SCORCH 数据生成中心用于艾滋病毒背景下的单细胞阿片类药物反应
- 批准号:
10037753 - 财政年份:2020
- 资助金额:
$ 52.65万 - 项目类别:
Supplement: Human Brain Collection for Study of the Neuropathogenesis of SARS-CoV-2, HIV-1, and Opioid Use Disorder
补充:用于研究 SARS-CoV-2、HIV-1 和阿片类药物使用障碍神经发病机制的人脑采集
- 批准号:
10468477 - 财政年份:2020
- 资助金额:
$ 52.65万 - 项目类别:
相似国自然基金
本体驱动的地址数据空间语义建模与地址匹配方法
- 批准号:41901325
- 批准年份:2019
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
时空序列驱动的神经形态视觉目标识别算法研究
- 批准号:61906126
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
针对内存攻击对象的内存安全防御技术研究
- 批准号:61802432
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
大容量固态硬盘地址映射表优化设计与访存优化研究
- 批准号:61802133
- 批准年份:2018
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
IP地址驱动的多径路由及流量传输控制研究
- 批准号:61872252
- 批准年份:2018
- 资助金额:64.0 万元
- 项目类别:面上项目
相似海外基金
Discovery and Applied Research for Technological Innovations to ImproveHuman Health
改善人类健康的技术创新的发现和应用研究
- 批准号:
10841979 - 财政年份:2023
- 资助金额:
$ 52.65万 - 项目类别:
Ultra Wideband Fall Detection and Prediction Solution for People Living with Dementia
针对痴呆症患者的超宽带跌倒检测和预测解决方案
- 批准号:
10760690 - 财政年份:2023
- 资助金额:
$ 52.65万 - 项目类别:
Development of a regional anesthesia guidance system to increase patient access to opioid-sparing analgesia for hip fracture pain
开发区域麻醉引导系统,以增加患者获得髋部骨折疼痛的阿片类药物保留镇痛的机会
- 批准号:
10759550 - 财政年份:2023
- 资助金额:
$ 52.65万 - 项目类别:
A computational model for prediction of morphology, patterning, and strength in bone regeneration
用于预测骨再生形态、图案和强度的计算模型
- 批准号:
10727940 - 财政年份:2023
- 资助金额:
$ 52.65万 - 项目类别:
Hybrid Model-Based and Data-Driven Frameworks for High-Resolution Tomographic Imaging
基于混合模型和数据驱动的高分辨率断层成像框架
- 批准号:
10714540 - 财政年份:2023
- 资助金额:
$ 52.65万 - 项目类别: