Predictive Modeling of Alternative Splicing and Polyadenylation from Millions of Random Sequences

数百万随机序列的选择性剪接和聚腺苷酸化的预测模型

基本信息

  • 批准号:
    9306648
  • 负责人:
  • 金额:
    $ 59.66万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-04-21 至 2021-01-31
  • 项目状态:
    已结题

项目摘要

The proportion of the human genome that underlies gene regulation dwarfs the proportion that encodes proteins. However, we remain poorly equipped for identifying which genetic variants compromise gene regulatory function in ways that may contribute to risk for both rare and common human diseases. Understanding how non-coding sequences regulate gene expression, as well as being able to predict the functional consequences of genetic variation for gene regulation, are paramount challenges for the field. Here, we propose to combine synthetic biology, massively parallel functional assays, and machine learning to profoundly advance our understanding of the `regulatory code' of the human genome. While challenging, the task of unravelling complex codes from large amounts of empirical data is not without precedent. For example, over the past decade, computer scientists working in natural language processing have made immense progress, driven in large part by a combination of algorithmic and computational improvements and enormously larger training datasets than were available to the previous generations of scientists working in this area. Inspired by the revolutionizing impact of “big data” for traditional problems in machine learning, we propose to model gene regulatory phenomena using training datasets with several orders of magnitude more examples than naturally exist in the human genome. We predict that the models learned from massive numbers of synthetic examples will strongly outperform models learned from the small number of natural examples. We will demonstrate our approach by developing comprehensive, quantitative, and predictive models for alternative splicing and alternative polyadenylation, two widespread regulatory mechanisms by which a single gene can code for multiple transcripts and proteins. However, we anticipate that this basic paradigm – specifically, the massively parallel measurement of the functional behavior of extremely large numbers of synthetic sequences followed by quantitative modeling of sequence-function relationships – can be generalized to advance our understanding of diverse forms of gene regulation.
基因调节基础的人类基因组的比例使编码的比例相形见,, 蛋白质。但是,我们在确定哪些遗传变异损害基因的基因方面仍然很差 监管功能的方式可能导致稀有人类疾病和常见的人类疾病的风险。 了解非编码序列如何调节基因表达,并能够预测 基因调节遗传变异的功能后果是该领域的最高挑战。这里, 我们建议将合成生物学,大量平行功能测定和机器学习结合起来 深刻地促进了我们对人类基因组的“监管守则”的理解。虽然具有挑战性,但 从大量经验数据中阐明复杂代码的任务并非没有先例。例如, 在过去的十年中,从事自然语言处理的计算机科学家巨大 进步,很大程度上是由算法和计算改进以及 与前几代科学家相比,在此工作的培训数据集大大要大得多 区域。受“大数据”对机器学习中传统问题的革命性影响的启发,我们 使用训练数据集对基因调节现象进行建模的提案,并具有多个数量级 人类基因组中天然存在的例子。我们预测模型从大规模学习 合成示例的数量将极大地超过从少数自然中学到的模型 例子。我们将通过发展全面,定量和预测来证明我们的方法 替代剪接和替代聚腺苷酸化的模型,两种宽度的调节机制 单个基因可以为多个转录本和蛋白质编码。但是,我们预计这个基本 范式 - 具体来说,极大的功能行为的大规模平行测量 合成序列的数量,然后进行序列功能关系的定量建模 - 可以是 概括以促进我们对潜水员基因调节形式的理解。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Georg Seelig其他文献

Georg Seelig的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Georg Seelig', 18)}}的其他基金

Engineering cell type-specific splicing regulation
工程细胞类型特异性剪接调控
  • 批准号:
    10633765
  • 财政年份:
    2023
  • 资助金额:
    $ 59.66万
  • 项目类别:
Joint receptor and protein expression immunophenotyping through split-pool barcoding
通过分池条形码进行联合受体和蛋白质表达免疫表型
  • 批准号:
    10625987
  • 财政年份:
    2021
  • 资助金额:
    $ 59.66万
  • 项目类别:
Joint receptor and protein expression immunophenotyping through split-pool barcoding
通过分池条形码进行联合受体和蛋白质表达免疫表型
  • 批准号:
    10375354
  • 财政年份:
    2021
  • 资助金额:
    $ 59.66万
  • 项目类别:
High-resolution spatial transcriptomics through light patterning
通过光图案化的高分辨率空间转录组学
  • 批准号:
    9886581
  • 财政年份:
    2020
  • 资助金额:
    $ 59.66万
  • 项目类别:
High-resolution spatial transcriptomics through light patterning
通过光图案化的高分辨率空间转录组学
  • 批准号:
    10341212
  • 财政年份:
    2020
  • 资助金额:
    $ 59.66万
  • 项目类别:
A massively parallel reporter assay for measuring chromatin effects on alternative splicing
用于测量染色质对选择性剪接的影响的大规模并行报告分析
  • 批准号:
    10161803
  • 财政年份:
    2020
  • 资助金额:
    $ 59.66万
  • 项目类别:
A massively parallel reporter assay for measuring chromatin effects on alternative splicing
用于测量染色质对选择性剪接的影响的大规模并行报告分析
  • 批准号:
    9977420
  • 财政年份:
    2020
  • 资助金额:
    $ 59.66万
  • 项目类别:
High-resolution spatial transcriptomics through light patterning
通过光图案化进行高分辨率空间转录组学
  • 批准号:
    10112854
  • 财政年份:
    2020
  • 资助金额:
    $ 59.66万
  • 项目类别:
A predictive model of mRNA stability and translation for variant interpretation and mRNA therapeutics
用于变异解释和 mRNA 治疗的 mRNA 稳定性和翻译的预测模型
  • 批准号:
    9894822
  • 财政年份:
    2018
  • 资助金额:
    $ 59.66万
  • 项目类别:

相似国自然基金

分布式非凸非光滑优化问题的凸松弛及高低阶加速算法研究
  • 批准号:
    12371308
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
资源受限下集成学习算法设计与硬件实现研究
  • 批准号:
    62372198
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于物理信息神经网络的电磁场快速算法研究
  • 批准号:
    52377005
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
考虑桩-土-水耦合效应的饱和砂土变形与流动问题的SPH模型与高效算法研究
  • 批准号:
    12302257
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向高维不平衡数据的分类集成算法研究
  • 批准号:
    62306119
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Computational tools and resources to study alternative splicing and mRNA isoform variation
研究选择性剪接和 mRNA 亚型变异的计算工具和资源
  • 批准号:
    10669330
  • 财政年份:
    2022
  • 资助金额:
    $ 59.66万
  • 项目类别:
Methods for improving clinical diagnostic by detection, prediction, interpretation and prioritization of aberrant transcriptome variations
通过异常转录组变异的检测、预测、解释和优先排序来改进临床诊断的方法
  • 批准号:
    10674723
  • 财政年份:
    2020
  • 资助金额:
    $ 59.66万
  • 项目类别:
Methods for improving clinical diagnostic by detection, prediction, interpretation and prioritization of aberrant transcriptome variations
通过异常转录组变异的检测、预测、解释和优先排序来改进临床诊断的方法
  • 批准号:
    10451556
  • 财政年份:
    2020
  • 资助金额:
    $ 59.66万
  • 项目类别:
Methods for improving clinical diagnostic by detection, prediction, interpretation and prioritization of aberrant transcriptome variations
通过异常转录组变异的检测、预测、解释和优先排序来改进临床诊断的方法
  • 批准号:
    10033447
  • 财政年份:
    2020
  • 资助金额:
    $ 59.66万
  • 项目类别:
Informatics Platform for Mammalian Gene Regulation at Isoform-level
异构体水平的哺乳动物基因调控信息学平台
  • 批准号:
    10273985
  • 财政年份:
    2020
  • 资助金额:
    $ 59.66万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了