Efficient Methods for Dimensionality Reduction ofSingle-Cell RNA-Sequencing Data
单细胞 RNA 测序数据降维的有效方法
基本信息
- 批准号:10356883
- 负责人:
- 金额:$ 5.18万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2020
- 资助国家:美国
- 起止时间:2020-03-16 至 2023-03-15
- 项目状态:已结题
- 来源:
- 关键词:AddressAdoptedAlgorithmsBiologicalCellsCodeCollectionCommunitiesComputer HardwareComputing MethodologiesConsensusDataData AnalysesData SetDevelopmentDimensionsDiseaseEvaluationFellowshipGaussian modelGenesHourHumanLanguageLearningLibrariesMathematicsMeasuresMentorshipMethodsModelingModernizationNamesNoiseNormal Statistical DistributionPaperPhysiciansPhysiologyPopulationPrincipal Component AnalysisProcessPublishingRNARandomizedResearch PersonnelResolutionRunningScientistSpeedStatistical BiasStatistical MethodsSystematic BiasTechniquesTechnologyTimeTissuesTrainingVariantVisualizationbasedesigndimensional analysisdistributed dataexperienceexperimental studyhigh dimensionalityimprovedinsightlaptopnon-Gaussian modelparallelizationprofessorsingle cell analysissingle-cell RNA sequencingstatisticssupercomputertheoriestooltranscriptometranscriptome sequencing
项目摘要
Project Summary: Efficient Methods for Dimensionality Reduction of Single-Cell RNA-Sequencing Data
Single-cell RNA-sequencing is a revolutionary technology enabling discoveries in human physiology and
disease. The datasets generated from single-cell RNA-sequencing experiments are so large that they cannot be
analyzed or visualized using traditional statistical methods until the datasets have been shrunk using a
technique named “dimensionality reduction.” Almost every analysis of single-cell RNA-sequencing begins
using a technique named principal component analysis (PCA) to accomplish dimensionality reduction.
However, single-cell RNA-sequencing presents unique challenges making PCA difficult. First, the size of these
datasets is so large that computing PCA requires specialized hardware and multiple hours. Fast algorithms to
approximate PCA have been shown to dramatically speed up this process, but have not proliferated in the
single cell-RNA sequencing community, in part because no parallelized algorithm has been written in the R
computing language. Second, PCA requires the researcher to decide the final desired size of the dataset.
Choosing too small of a size results in discarding valuable biological insights, while choosing too large a size
increases the noise. However, there is no consensus on how to pick the optimal size for single-cell RNA
sequencing, and there is evidence that this size might be systematically underestimated. Lastly, PCA cannot be
applied directly to the count-data measured in single cell RNA sequencing, so researchers must first apply a
preprocessing technique to normalize it. The current standard in the field is to apply the log transform –
however, several recent studies have shown that the log transform creates statistical biases in single-cell RNA
sequencing. In this fellowship, specifically tailored, fast methods for performing PCA on single-cell RNA-
sequencing data will be developed: 1a) A framework to rigorously measure the consequence of changing
preprocessing parameters on the final results of several publicly available single cell RNA sequencing datasets
to enable experimentation of PCA on single-cell RNA-sequencing data. 1b) An ultra-fast, parallelized
implementation of randomized PCA allowing researchers using standard laptops to rapidly perform PCA on
single cell RNA sequencing data. 2) A technique for rigorously choosing the final size when performing
principal component analysis for single-cell RNA-sequencing datasets. 3) A method for transforming single-cell
RNA-sequencing data so that it becomes appropriately distributed enabling proper usage of PCA without
incurring statistical biases. This fellowship also includes a detailed training plan with valuable learning
experiences for the applicant’s development as a physician-scientist who can apply methods from high
dimensional-statistics to solving biomedical problems.
项目摘要:单细胞 RNA 测序数据降维的有效方法
单细胞 RNA 测序是一项革命性技术,能够在人类生理学和
单细胞 RNA 测序实验生成的数据集太大,无法分析。
使用传统统计方法进行分析或可视化,直到使用
几乎每一次单细胞 RNA 测序分析都是从这项技术开始的。
使用称为主成分分析(PCA)的技术来完成降维。
然而,单细胞 RNA 测序带来了独特的挑战,使 PCA 变得困难。首先,它们的大小。
数据集非常大,计算 PCA 需要专门的硬件和多个小时的快速算法。
近似 PCA 已被证明可以极大地加速这一过程,但并没有在
单细胞 RNA 测序社区,部分原因是 R 中尚未编写并行算法
其次,PCA 要求研究人员决定数据集的最终所需大小。
选择太小的尺寸会导致丢弃有价值的生物学见解,而选择太大的尺寸
然而,对于如何选择单细胞 RNA 的最佳大小尚未达成共识。
测序,并且有证据表明这个大小可能会被系统性地低估。最后,PCA 不能被低估。
直接应用于单细胞 RNA 测序中测量的计数数据,因此研究人员必须首先应用
对其进行标准化的预处理技术是应用对数变换 -
然而,最近的几项研究表明,对数变换会在单细胞 RNA 中产生统计偏差
在本研究金中,专门定制了对单细胞 RNA 进行 PCA 的快速方法。
将开发测序数据: 1a)严格衡量改变的后果的框架
对几个公开的单细胞 RNA 测序数据集的最终结果进行预处理的参数
能够对单细胞 RNA 测序数据进行 PCA 实验 1b) 超快速、并行化。
随机 PCA 的实施允许研究人员使用标准笔记本电脑快速执行 PCA
2) 执行时严格选择最终大小的技术。
单细胞 RNA 测序数据集的主成分分析 3) 一种转换单细胞的方法。
RNA 测序数据,使其适当分布,从而能够正确使用 PCA,而无需
该奖学金还包括一个具有宝贵学习价值的详细培训计划。
申请人作为一名能够应用高级方法的医师科学家的发展经验
维度统计来解决生物医学问题。
项目成果
期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
RAS mutation and associated risk of malignancy in the thyroid gland: An FNA study with cytology-histology correlation.
RAS 突变和甲状腺恶性肿瘤的相关风险:一项具有细胞学-组织学相关性的 FNA 研究。
- DOI:
- 发表时间:2022-04
- 期刊:
- 影响因子:3.4
- 作者:Gilani, Syed M;Abi;Garritano, James;Cai, Guoping;Prasad, Manju L;Adeniran, Adebowale J
- 通讯作者:Adeniran, Adebowale J
Anaplastic Thyroid Carcinoma: Cytomorphologic Features on Fine-Needle Aspiration and Associated Diagnostic Challenges.
甲状腺未分化癌:细针抽吸的细胞形态学特征及相关诊断挑战。
- DOI:
- 发表时间:2022-04-01
- 期刊:
- 影响因子:3.5
- 作者:Podany, Peter;Abi;Barbieri, Andrea;Garritano, James;Prasad, Manju L;Cai, Guoping;Adeniran, Adebowale J;Gilani, Syed M
- 通讯作者:Gilani, Syed M
Quantitative assessment of p16 expression in FNA specimens from head and neck squamous cell carcinoma and correlation with HPV status.
头颈鳞状细胞癌 FNA 标本中 p16 表达的定量评估及其与 HPV 状态的相关性。
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:3.4
- 作者:Abi;Prasad, Manju L;Gilani, Syed;Garritano, James;Barlow, Deborah;Cai, Guoping;Adeniran, Adebowale J
- 通讯作者:Adeniran, Adebowale J
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
James Michael Garritano其他文献
James Michael Garritano的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似国自然基金
血管内皮细胞通过E2F1/NF-kB/IL-6轴调控巨噬细胞活化在眼眶静脉畸形中的作用及机制研究
- 批准号:82301257
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
睡眠剥夺通过上调BMAL1/IL-17轴促进三级淋巴结构形成加重哮喘的研究
- 批准号:82300039
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
S100A6通过调控ZNF750组蛋白甲基化促进糖尿病角质形成细胞分化障碍的机制研究
- 批准号:82302802
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
肿瘤相关成纤维细胞通过CCL5/CCR5轴促进神经内分泌前列腺癌顺铂耐药的机制研究
- 批准号:82373358
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
鼻腔共生表皮葡萄球菌通过抗菌肽-moDC-CCL17通路抑制过敏性鼻炎的分子机制
- 批准号:82302595
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Unified, Scalable, and Reproducible Neurostatistical Software
统一、可扩展且可重复的神经统计软件
- 批准号:
10725500 - 财政年份:2023
- 资助金额:
$ 5.18万 - 项目类别:
Improving Diagnosis in Gastrointestinal Cancer: Integrating Prediction Models into Routine Clinical Care
改善胃肠癌的诊断:将预测模型纳入常规临床护理
- 批准号:
10641060 - 财政年份:2023
- 资助金额:
$ 5.18万 - 项目类别:
mAnaging siCkle CELl disease through incReased AdopTion of hydroxyurEa in Nigeria (ACCELERATE)
在尼日利亚通过增加羟基脲的使用来控制镰状细胞病(加速)
- 批准号:
10638598 - 财政年份:2023
- 资助金额:
$ 5.18万 - 项目类别:
A visualization interface for BRAIN single cell data, integrating transcriptomics, epigenomics and spatial assays
BRAIN 单细胞数据的可视化界面,集成转录组学、表观基因组学和空间分析
- 批准号:
10643313 - 财政年份:2023
- 资助金额:
$ 5.18万 - 项目类别:
Design and Pilot Test of A Prediabetes Digital Patient Activation Tool
糖尿病前期数字患者激活工具的设计和试点测试
- 批准号:
10648646 - 财政年份:2023
- 资助金额:
$ 5.18万 - 项目类别: