Generating a full-length reference transcriptome for human protein-coding genes
生成人类蛋白质编码基因的全长参考转录组
基本信息
- 批准号:10331602
- 负责人:
- 金额:$ 75.76万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-08-22 至 2027-06-30
- 项目状态:未结题
- 来源:
- 关键词:Alternative SplicingApoptoticAutomated AnnotationBCL2L1 geneBase SequenceBiologyCatalogsCellsClinicalCodeCollaborationsCollectionComplementComplementary DNAComplexComputer softwareDNA sequencingDataData AnalysesData SetDatabasesDepositionDevelopmentDimensionsDiseaseExhibitsExpressed Sequence TagsGenesGenetic TranscriptionGenomeGenomicsGoalsHumanHuman GenomeInternationalInvestigationKnowledgeLengthLiteratureManualsMessenger RNAMethodsModelingNatureOpen Reading FramesPaperPatientsPost-Translational Protein ProcessingProcessProtein IsoformsProteinsProteomeRNA SplicingResourcesSensitivity and SpecificitySpecificityStimulusStructureSupervisionTechnologyTimeTissuesTranscriptTranslationsanalysis pipelinebasecell typedata archiveexperimental studyfollow-upgenetic disorder diagnosisgenetic testinggenome-wideinsightmolecular sequence databaseresponsetranscriptometranscriptome sequencingtranscriptomicswhole genome
项目摘要
Abstract
Elucidating the coding potential of the genome has benefited from accurate genome sequences and extensive
transcriptome sequencing to allow detailed models for protein-coding sequences (CDSs) or open reading frames
(ORFs). Although at least one reliable full-length transcript model has been assigned for every protein-coding
gene, the majority of alternative isoforms remains uncharacterized due to i) vast differences of expression levels
between isoforms expressed from common genes, and ii) the difficulty of obtaining full-length (FL) transcript
sequences. Furthermore, there remains a large discrepancy between the total number of transcripts in
annotation databases and the number for which there is an annotated FL transcript with experimental evidence.
The spectrum of encoded transcripts comprises a vast but finite “isoform-space” with multiple dimensions: i)
genes, ii) tissues and cell types, iii) development and time iv) disease, and v) response to stimuli. Just as
expression levels vary across cells and tissues, so can the relative abundance of alternatively spliced transcripts.
Full, functional understanding of the human genome will not be possible without empirical knowledge and
complete annotation of the entire complement of encoded functional proteins.
Historically, gene annotation was supported predominantly by ESTs and mRNAs from INSDC databases while
automated approaches to annotation are being applied to whole genomes and transcriptomes. However, current
automated annotation does not provide the same quality data as does manual annotation. Sensitivity and
specificity are reduced, less functional annotation is captured, and all automated methods lack the capacity of a
manual annotator to introduce additional orthogonal data types and interpretation of the scientific literature, but
manual annotation is highly labor-intensive. GENCODE release v36 represents the interpretation of nearly 10
million EST, cDNA and protein homologies. Given the anticipated volumes of data, with single experiments
producing more data than the entire INSDC catalogue, current methods of manual annotation do not scale. The
emergence of long transcriptomic sequencing methods provides for the replacement of historical data types to
the benefit of gene and transcript annotation. However, the massively greater data volumes already being
deposited in public data archives exceed manual curation capability, demanding implementation of automated
solutions without compromising annotation quality. Furthermore, as untargeted sequencing approaches are very
inefficient in their discovery of less abundant transcripts, the majority of sequence data generated gives us very
little insight into discoverable transcript diversity. To overcome these challenges, our two respective groups have
joined forces to increase the catalog of fully experimentally verified full length human protein-coding transcripts.
This proposal focuses on the integration of experimental approaches that will provide a comprehensive
enumeration of human protein-coding transcripts, a “Reference Human Transcriptome” with the development of
an automated annotation pipeline to allow the integration of this resource into GENCODE gene annotation.
抽象的
阐明基因组的编码潜力得益于准确的基因组序列和广泛的研究
转录组测序可提供蛋白质编码序列 (CDS) 或开放阅读框的详细模型
(ORF)虽然已经为每个蛋白质编码分配了至少一个可靠的全长转录模型。
基因,由于 i) 表达水平的巨大差异,大多数替代同工型仍未表征
共同基因表达的亚型之间的差异,以及 ii) 获得全长 (FL) 转录本的难度
此外,转录本总数之间仍然存在很大差异。
注释数据库以及带有实验证据的注释 FL 转录本的数量。
编码转录本的范围包含一个巨大但有限的多维“异构体空间”:i)
基因,ii) 组织和细胞类型,iii) 发育和时间 iv) 疾病,以及 v) 对刺激的反应。
不同细胞和组织的表达水平不同,选择性剪接转录本的相对丰度也不同。
如果没有经验知识和经验,就不可能对人类基因组进行全面、功能性的理解。
编码功能蛋白的完整注释。
从历史上看,基因注释主要由 INSDC 数据库中的 EST 和 mRNA 支持,而
然而,自动化注释方法正在应用于整个基因组和转录组。
自动注释不能提供与手动注释相同的质量数据。
特异性降低,捕获的功能注释较少,并且所有自动化方法都缺乏分析能力
手动注释器引入额外的正交数据类型和科学文献的解释,但是
手动注释是高度劳动密集型的,GENCODE 版本 v36 代表了近 10 个解释。
考虑到预期的数据量,通过单个实验获得数百万个 EST、cDNA 和蛋白质同源物。
产生的数据比整个 INSDC 目录还要多,当前的手动注释方法无法扩展。
长转录组测序方法的出现提供了历史数据类型的替代
然而,基因和转录本注释的好处已经大大增加。
存放在公共数据档案中的数据超出了人工管理能力,需要实施自动化
此外,由于非靶向测序方法非常困难。
他们发现不太丰富的转录本效率低下,生成的大多数序列数据给了我们非常多的信息
为了克服这些挑战,我们两个小组对可发现的转录本多样性知之甚少。
共同努力增加经过充分实验验证的全长人类蛋白质编码转录本的目录。
该提案侧重于实验方法的整合,这将提供全面的
人类蛋白质编码转录本的计数,“参考人类转录组”的发展
一个自动化注释管道,允许将此资源集成到 GENCODE 基因注释中。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
David E. Hill其他文献
Design and synthesis of a protein. beta. -turn mimetic
蛋白质的设计和合成。
- DOI:
- 发表时间:
1990 - 期刊:
- 影响因子:0
- 作者:
G. Olson;M. Voss;David E. Hill;M. Kahn;V. Madison;C. Cook - 通讯作者:
C. Cook
Fully 3D Monte Carlo image reconstruction in SPECT using functional regions
使用功能区域在 SPECT 中进行全 3D 蒙特卡罗图像重建
- DOI:
10.1016/j.nima.2006.08.055 - 发表时间:
2005 - 期刊:
- 影响因子:1.4
- 作者:
Z. E. Bitar;Z. E. Bitar;D. Lazaro;Christopher Coello;V. Breton;David E. Hill;I. Buvat - 通讯作者:
I. Buvat
Evaluating the accuracy of density functional theory for calculating 1H and 13C NMR chemical shifts in drug molecules
评估密度泛函理论计算药物分子 1H 和 13C NMR 化学位移的准确性
- DOI:
10.1016/j.comptc.2014.11.007 - 发表时间:
2015 - 期刊:
- 影响因子:2.8
- 作者:
David E. Hill;N. Vasdev;J. Holland - 通讯作者:
J. Holland
Mutagenesis with Degenerate Oligonucleotides: Creating Numerous Mutations in a Small DNA Sequence
简并寡核苷酸诱变:在小 DNA 序列中产生大量突变
- DOI:
- 发表时间:
1999 - 期刊:
- 影响因子:0
- 作者:
David E. Hill - 通讯作者:
David E. Hill
David E. Hill的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('David E. Hill', 18)}}的其他基金
Generating a full-length reference transcriptome for human protein-coding genes
生成人类蛋白质编码基因的全长参考转录组
- 批准号:
10687972 - 财政年份:2022
- 资助金额:
$ 75.76万 - 项目类别:
The 6th ORFeome Meeting: ORFeomes and Systems
第六届 ORFeome 会议:ORFeomes 和系统
- 批准号:
7225045 - 财政年份:2006
- 资助金额:
$ 75.76万 - 项目类别:
Mapping the first half of the REFERENCE human binary protein interactome
绘制参考人类二元蛋白质相互作用组的前半部分
- 批准号:
8518435 - 财政年份:1998
- 资助金额:
$ 75.76万 - 项目类别:
Mapping the first half of the REFERENCE human binary protein interactome
绘制参考人类二元蛋白质相互作用组的前半部分
- 批准号:
8245460 - 财政年份:1998
- 资助金额:
$ 75.76万 - 项目类别:
Mapping the first half of the REFERENCE human binary protein interactome
绘制参考人类二元蛋白质相互作用组的前半部分
- 批准号:
8666559 - 财政年份:1998
- 资助金额:
$ 75.76万 - 项目类别:
DETECTION OF ALTERED APC PROTEINS IN COLON CANCER CELLS
结肠癌细胞中 APC 蛋白改变的检测
- 批准号:
3493423 - 财政年份:1993
- 资助金额:
$ 75.76万 - 项目类别:
相似国自然基金
STAB1调控Fas/FasL介导牦牛胎盘滋养层细胞凋亡及胎盘炎症性流产的作用与机制研究
- 批准号:32360836
- 批准年份:2023
- 资助金额:32 万元
- 项目类别:地区科学基金项目
萱草花细胞程序性凋亡生物钟调控机制研究
- 批准号:32371943
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
基于VEGFR2/Ca2+信号通路研究可视化针刀“调筋治骨”减轻颈椎病颈肌细胞凋亡的分子机制
- 批准号:82360940
- 批准年份:2023
- 资助金额:32 万元
- 项目类别:地区科学基金项目
STING/ALG-2复合物的结构及其在STING激活诱导的T细胞凋亡中的功能
- 批准号:32371265
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
NEDD4介导IGFBP7泛素化参与有氧运动抑制泛凋亡改善心肌缺血再灌注损伤的机制研究
- 批准号:82302873
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Functional role of Sec20, a BH3 and Secretory (Sec) domain protein, in neurons and its relevance to a motor neuron disease in Drosophila
Sec20(一种 BH3 和分泌 (Sec) 结构域蛋白)在神经元中的功能作用及其与果蝇运动神经元疾病的相关性
- 批准号:
10635856 - 财政年份:2023
- 资助金额:
$ 75.76万 - 项目类别:
Impact of ATR's role in translesion synthesis on prevention of DNA damage induced mutagenesis and chromosomal instability
ATR 在跨损伤合成中的作用对预防 DNA 损伤诱导的突变和染色体不稳定性的影响
- 批准号:
10634852 - 财政年份:2023
- 资助金额:
$ 75.76万 - 项目类别:
Sumoylation and its regulation in testicular Sertoli cells
睾丸支持细胞的苏酰化及其调控
- 批准号:
10654204 - 财政年份:2023
- 资助金额:
$ 75.76万 - 项目类别:
Heme-mediated Mitochondrial Injury, Senescence, Acute Kidney Injury and Chronic Kidney Disease
血红素介导的线粒体损伤、衰老、急性肾损伤和慢性肾病
- 批准号:
10656648 - 财政年份:2023
- 资助金额:
$ 75.76万 - 项目类别:
Deciphering the molecular mechanism of ineffective erythropoiesis in MDS-5q
破译MDS-5q无效红细胞生成的分子机制
- 批准号:
10773217 - 财政年份:2023
- 资助金额:
$ 75.76万 - 项目类别: