Transforming dbGaP genetic and genomic data to FAIR-ready by artificial intelligence and machine learning algorithms
通过人工智能和机器学习算法将 dbGaP 遗传和基因组数据转变为 FAIR-ready
基本信息
- 批准号:10842954
- 负责人:
- 金额:$ 30.61万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2017
- 资助国家:美国
- 起止时间:2017-09-14 至 2025-05-31
- 项目状态:未结题
- 来源:
- 关键词:ATAC-seqAccelerationAddressAdministrative SupplementAlgorithmic AnalysisAlgorithmsAllelesAlzheimer&aposs DiseaseArtificial IntelligenceAttentionBrainBrain DiseasesCase StudyCellsChromosomesCodeCognitiveCollectionComplexCustomDNA sequencingDNase I hypersensitive sites sequencingDataData DiscoveryData SetDiseaseFundingGene ExpressionGenesGeneticGenetic MarkersGenetic TransformationGenetic studyGenomicsGenotypeGlioblastomaGoalsGrantHaplotypesHistonesHumanImageImage AnalysisImpaired cognitionIndividualInvestigationLanguageLogistic RegressionsMachine LearningMethodsModelingMolecularMultiomic DataMultiple SclerosisMusNeural Network SimulationPathway interactionsPhenotypePrincipal InvestigatorProceduresProcessResearch PersonnelResolutionRoleSchizophreniaScreening procedureStandardizationTestingTissuesTrainingUnited States National Institutes of HealthUnited States National Library of MedicineUntranslated RNAVariantVocabularyWeightWorkartificial intelligence algorithmautoencodercell typecognitive testingconvolutional neural networkdatabase of Genotypes and Phenotypesdeep learningdeep learning algorithmdeep learning modeldigital imagingdosageepigenomicsgene discoverygenetic resourcegenetic variantgenome sequencinggenome wide association studygenomic dataimprovedlearning strategymachine learning algorithmmalignant breast neoplasmmultiple omicsneural network algorithmphenotypic dataprogramsprototyperepositoryrisk variantsingle-cell RNA sequencingspatiotemporaltraittwo-dimensional
项目摘要
dbGaP is a repository for NIH funded projects and it contains many genetic and genomic data.
However, data there are not ready for AI and machine learning applications. This application
proposes methods to address this issue. We have two aims: 1). Develop and standardize
procedures to transfer genetic and genomic data into image like objects and tokenized custom
vocabulary so that the data can be utilized by advanced AI algorithms such CNN, autoencoder
and transformer. To transform genetic data into image, we recode allele dosage value as pixel
intensity and arrange a collection of genetic markers such as SNPs and CNVs into an artificial
image object so that it can be analyzed by CNN algorithms. Genetic markers can also be used
to define haplotypes, which can be tokenized into custom vocabularies for use in NLP models.
2). Use Alzheimer's disease and schizophrenia as case studies to demonstrate the utilities of
transformed data for the discovery and identification of risk variants/genes for both conditions.
We plan to impute genetically controlled gene expression using brain specific eQTLs and
individual genotypes for an AD dataset, and transform the expression data into image objects
for analyses by CNN model with self attention mechanism. For schizophrenia, we plan to use k-
mer tokenizer to break haplotypes into a collection of small haplotype blocks and treat them as
tokens for analyses by NLP models. We use both CNN and NLP models as screen tools to
select promising candidates using the attention weights, and then directly test these candidates
for their association with AD/schizophrenia using logistic regression. Due to the selection effect,
we can dramatically reduce the number of testing, significantly increase our statistical power to
detect risk variants/genes to AD/schizophrenia.
dbGaP 是 NIH 资助项目的存储库,包含许多遗传和基因组数据。
然而,那里的数据还没有准备好用于人工智能和机器学习应用。这个应用程序
提出解决这个问题的方法。我们有两个目标:1)。开发和标准化
将遗传和基因组数据传输到图像类对象和标记化定制的程序
词汇表,以便数据可以被 CNN、自动编码器等高级 AI 算法利用
和变压器。为了将遗传数据转换为图像,我们将等位基因剂量值重新编码为像素
强度并将一系列遗传标记(例如 SNP 和 CNV)排列成人工
图像对象,以便可以通过 CNN 算法对其进行分析。也可以使用遗传标记
定义单倍型,可以将其标记为自定义词汇表以在 NLP 模型中使用。
2)。使用阿尔茨海默病和精神分裂症作为案例研究来证明
转换数据以发现和识别这两种情况的风险变异/基因。
我们计划使用大脑特定的 eQTL 来估算遗传控制的基因表达,
AD 数据集的各个基因型,并将表达数据转换为图像对象
通过具有自注意力机制的 CNN 模型进行分析。对于精神分裂症,我们计划使用 k-
mer tokenizer 将单倍型分解为小单倍型块的集合并将它们视为
用于 NLP 模型分析的标记。我们使用 CNN 和 NLP 模型作为筛选工具
使用注意力权重选择有前途的候选者,然后直接测试这些候选者
使用逻辑回归分析其与 AD/精神分裂症的关联。由于选择效应,
我们可以大大减少测试数量,显着提高我们的统计能力
检测 AD/精神分裂症的风险变异/基因。
项目成果
期刊论文数量(42)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Identification of gene signatures from RNA-seq data using Pareto-optimal cluster algorithm.
使用 Pareto 最优聚类算法从 RNA-seq 数据中识别基因特征。
- DOI:
- 发表时间:2018
- 期刊:
- 影响因子:0
- 作者:Mallik, Saurav;Zhao, Zhongming
- 通讯作者:Zhao, Zhongming
Differential Expression of Viral Transcripts From Single-Cell RNA Sequencing of Moderate and Severe COVID-19 Patients and Its Implications for Case Severity.
中度和重症 COVID-19 患者单细胞 RNA 测序中病毒转录物的差异表达及其对病例严重程度的影响。
- DOI:
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:Liu, Teng;Jia, Peilin;Fang, Bingliang;Zhao, Zhongming
- 通讯作者:Zhao, Zhongming
Age-associated telomere attrition in adipocyte progenitors predisposes to metabolic disease.
脂肪细胞祖细胞中与年龄相关的端粒磨损易患代谢疾病。
- DOI:
- 发表时间:2020-12
- 期刊:
- 影响因子:20.8
- 作者:Gao, Zhanguo;Daquinag, Alexes C;Fussell, Cale;Zhao, Zhongming;Dai, Yulin;Rivera, Angielyn;Snyder, Brad E;Eckel;Kolonin, Mikhail G
- 通讯作者:Kolonin, Mikhail G
Insulin resistance in depression: A large meta-analysis of metabolic parameters and variation.
抑郁症中的胰岛素抵抗:代谢参数和变化的大型荟萃分析。
- DOI:
- 发表时间:2022-08
- 期刊:
- 影响因子:8.2
- 作者:Fernandes, Brisa S;Salagre, Estela;Enduru, Nitesh;Grande, Iria;Vieta, Eduard;Zhao, Zhongming
- 通讯作者:Zhao, Zhongming
Single-Cell Transcriptomics Reveals Pre-existing COVID-19 Vulnerability Factors in Lung Cancer Patients.
单细胞转录组学揭示了肺癌患者中预先存在的 COVID-19 脆弱因素。
- DOI:
- 发表时间:2024-03-01
- 期刊:
- 影响因子:0
- 作者:Liu, Wendao;Li, Wenbo;Zhao, Zhongming
- 通讯作者:Zhao, Zhongming
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Zhongming Zhao其他文献
Zhongming Zhao的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Zhongming Zhao', 18)}}的其他基金
Constructing A Transcriptomic Atlas of Retrotransposon in Alzheimer's Disease
构建阿尔茨海默病逆转录转座子转录组图谱
- 批准号:
10431366 - 财政年份:2022
- 资助金额:
$ 30.61万 - 项目类别:
Deep learning methods to predict the function of genetic variants in orofacial clefts
深度学习方法预测口颌裂遗传变异的功能
- 批准号:
9764346 - 财政年份:2018
- 资助金额:
$ 30.61万 - 项目类别:
Predicting Phenotype by Deep Learning Heterogeneous Multi-Omics Data
通过深度学习异构多组学数据预测表型
- 批准号:
10318084 - 财政年份:2017
- 资助金额:
$ 30.61万 - 项目类别:
Predicting Phenotype by Using Transcriptomic Alteration as Endophenotype
使用转录组改变作为内表型预测表型
- 批准号:
9750105 - 财政年份:2017
- 资助金额:
$ 30.61万 - 项目类别:
Predicting Phenotype by Using Transcriptomic Alteration as Endophenotype
使用转录组改变作为内表型预测表型
- 批准号:
9980998 - 财政年份:2017
- 资助金额:
$ 30.61万 - 项目类别:
Predicting Phenotype by Deep Learning Heterogeneous Multi-Omics Data
通过深度学习异构多组学数据预测表型
- 批准号:
10640868 - 财政年份:2017
- 资助金额:
$ 30.61万 - 项目类别:
Predicting Phenotype by Deep Learning Heterogeneous Multi-Omics Data
通过深度学习异构多组学数据预测表型
- 批准号:
10449376 - 财政年份:2017
- 资助金额:
$ 30.61万 - 项目类别:
MicroRNA and Transcription Factor Co-regulation in Cancer
癌症中的 MicroRNA 和转录因子共同调控
- 批准号:
9093087 - 财政年份:2016
- 资助金额:
$ 30.61万 - 项目类别:
MicroRNA and Transcription Factor Co-regulation in Cancer
癌症中的 MicroRNA 和转录因子共同调控
- 批准号:
9329385 - 财政年份:2016
- 资助金额:
$ 30.61万 - 项目类别:
Mapping the Genetic Architecture of Complex Disease via RNA-seq and GWAS
通过 RNA-seq 和 GWAS 绘制复杂疾病的遗传结构
- 批准号:
9212507 - 财政年份:2016
- 资助金额:
$ 30.61万 - 项目类别:
相似国自然基金
面向电力储能集群系统的加速退化试验与寿命评估方法研究
- 批准号:62303293
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
面向计算密集型应用的新型计算范式及其加速器关键技术
- 批准号:62374108
- 批准年份:2023
- 资助金额:48 万元
- 项目类别:面上项目
基于任意精度计算架构的量子信息处理算法硬件加速技术研究
- 批准号:62304037
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
分布式非凸非光滑优化问题的凸松弛及高低阶加速算法研究
- 批准号:12371308
- 批准年份:2023
- 资助金额:43.5 万元
- 项目类别:面上项目
极端光场条件下正电子束的产生、加速和操控研究
- 批准号:12375244
- 批准年份:2023
- 资助金额:53 万元
- 项目类别:面上项目
相似海外基金
Defining molecular mechanisms by which stimulant evoked dopamine drives inflammation and neuronal dysfunction in neuroHIV
定义兴奋剂诱发多巴胺驱动神经艾滋病毒炎症和神经元功能障碍的分子机制
- 批准号:
10685160 - 财政年份:2023
- 资助金额:
$ 30.61万 - 项目类别:
Precision Medicine Digital Twins for Alzheimer’s Target and Drug Discovery and Longevity
用于阿尔茨海默氏症靶点和药物发现及长寿的精准医学数字孪生
- 批准号:
10727793 - 财政年份:2023
- 资助金额:
$ 30.61万 - 项目类别:
Deciphering molecular mechanisms controlling age-associated uterine adaptabilityto pregnancy
破译控制与年龄相关的子宫妊娠适应性的分子机制
- 批准号:
10636576 - 财政年份:2023
- 资助金额:
$ 30.61万 - 项目类别:
Advancing Transplantation Tolerance in Nonhuman Primates
提高非人类灵长类动物的移植耐受性
- 批准号:
10622205 - 财政年份:2023
- 资助金额:
$ 30.61万 - 项目类别:
Defining molecular mechanisms by which stimulant evoked dopamine drives inflammation and neuronal dysfunction in neuroHIV
定义兴奋剂诱发多巴胺驱动神经艾滋病毒炎症和神经元功能障碍的分子机制
- 批准号:
10685160 - 财政年份:2023
- 资助金额:
$ 30.61万 - 项目类别: