CAREER: Learning Probabilistic Factor Models
职业:学习概率因子模型
基本信息
- 批准号:1943902
- 负责人:
- 金额:$ 40万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2020
- 资助国家:美国
- 起止时间:2020-07-01 至 2025-06-30
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
A large amount of text and social network data is emerging in scientific research as well as everyday life. This project will develop statistical methods for analyzing data resulting in new scientific, sociological, and biomedical discoveries. The research has several fundamental challenges due to the features of the data: (1) large scale, which requires advanced strategies on storage, computation, and quality control; (2) a complicated structure, which makes careful statistical modeling a critical need; and (3) strong noise, which requires sophisticated de-noising techniques. To address these challenges, the PI proposes a universal probabilistic factor modeling approach. The research will provide an array of statistical tools for social network analysis, natural language processing, RNA-sequencing data analysis, and electronic health records analysis. This project will also help train graduate and undergraduate students on data collection, data cleaning, statistical methodology and theory. In addition, this project will release new software and data sets for network and text analysis providing useful resources for both education and research. Probabilistic factor models refer to factor models whose factors or factor loadings are connected to probability mass functions. Examples include the topic models in text mining and mixed membership models in social networks. Due to the nonnegative constraints and the dependent and heteroscedastic noise in these models, statistical estimation and inference are extremely challenging. This project will tackle these challenges and apply the proposed methods to different applications. The first thrust aims to develop a novel framework for exploring sparsity in topic models. It proposes a new notion of "sparsity" on the vocabulary, which is different from the conventional notion of sparsity in high-dimensional statistics. The framework will provide a theoretical foundation for dimension reduction in text mining, as well as new word screening methods and new spectral methods for topic weight estimation. The second thrust aims to study the fundamental statistical limits for network mixed membership estimation. It will lead to a new optimality theory of mixed membership estimation, especially for network models with a large degree of heterogeneity, and new random matrix theory for empirical eigenvectors. It will also produce data sets about the networks among academic researchers in statistics-related fields and generate discoveries about the trend and patterns in academic research. The third thrust aims to adapt the above technical tools to biomedical data, including bulk and single-cell RNA-sequencing data and electronic health care data. It will result in new mixture models and statistical inference tools for biomedical data.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
科学研究和日常生活中不断出现大量文本和社交网络数据。该项目将开发用于分析数据的统计方法,从而产生新的科学、社会学和生物医学发现。由于数据的特点,该研究面临几个基本挑战:(1)数据规模大,需要先进的存储、计算和质量控制策略; (2) 结构复杂,因此需要仔细的统计建模; (3)强噪声,需要复杂的去噪技术。为了应对这些挑战,PI 提出了一种通用概率因子建模方法。该研究将为社交网络分析、自然语言处理、RNA测序数据分析和电子健康记录分析提供一系列统计工具。 该项目还将帮助培训研究生和本科生的数据收集、数据清理、统计方法和理论。此外,该项目还将发布用于网络和文本分析的新软件和数据集,为教育和研究提供有用的资源。 概率因子模型是指因子或因子载荷与概率质量函数相关的因子模型。示例包括文本挖掘中的主题模型和社交网络中的混合会员模型。由于这些模型中的非负约束以及相关和异方差噪声,统计估计和推断极具挑战性。该项目将解决这些挑战并将所提出的方法应用于不同的应用。第一个目标是开发一个新的框架来探索主题模型中的稀疏性。它在词汇上提出了一种新的“稀疏性”概念,与高维统计中传统的稀疏性概念不同。该框架将为文本挖掘中的降维以及新的词筛选方法和新的主题权重估计谱方法提供理论基础。第二个重点旨在研究网络混合隶属度估计的基本统计限制。它将带来新的混合隶属估计最优理论,特别是对于具有较大异质性的网络模型,以及新的经验特征向量随机矩阵理论。它还将产生有关统计相关领域学术研究人员网络的数据集,并产生有关学术研究趋势和模式的发现。第三个重点旨在使上述技术工具适应生物医学数据,包括批量和单细胞 RNA 测序数据以及电子医疗保健数据。它将产生新的混合模型和生物医学数据的统计推断工具。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(14)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Estimation of the Number of Spiked Eigenvalues in a Covariance Matrix by Bulk Eigenvalue Matching Analysis
通过批量特征值匹配分析估计协方差矩阵中尖峰特征值的数量
- DOI:10.1080/01621459.2021.1933497
- 发表时间:2021-07
- 期刊:
- 影响因子:3.7
- 作者:Ke, Zheng Tracy;Ma, Yucong;Lin, Xihong
- 通讯作者:Lin, Xihong
Subject clustering by IF-PCA and several recent methods
- DOI:10.3389/fgene.2023.1166404
- 发表时间:2023-05-23
- 期刊:
- 影响因子:3.7
- 作者:Dieyi Chen;Jiashun Jin;Z. Ke
- 通讯作者:Z. Ke
Phase transition for detecting a small community in a large network
用于检测大型网络中的小社区的相变
- DOI:
- 发表时间:2023-01
- 期刊:
- 影响因子:0
- 作者:Jin, Jiashun;Ke, Zheng Tracy;Turner, Paxton;Zhang, Anru
- 通讯作者:Zhang, Anru
Optimal adaptivity of signed-polygon statistics for network testing
网络测试的符号多边形统计的最佳适应性
- DOI:10.1214/21-aos2089
- 发表时间:2019-04-21
- 期刊:
- 影响因子:0
- 作者:Jiashun Jin;Z. Ke;Shengming Luo
- 通讯作者:Shengming Luo
Power enhancement and phase transitions for global testing of the mixed membership stochastic block model
用于混合隶属随机块模型全局测试的功率增强和相变
- DOI:10.3150/22-bej1519
- 发表时间:2023-08
- 期刊:
- 影响因子:1.5
- 作者:Cammarata, Louis V.;Ke, Zheng Tracy
- 通讯作者:Ke, Zheng Tracy
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Zheng Ke其他文献
Effects of Liquid Flow Rate and Surface-to-nozzle Distance on Non-boiling Heat Transfer Performance in Spray Cooling
喷雾冷却中液体流量和表面至喷嘴距离对非沸腾传热性能的影响
- DOI:
- 发表时间:
2024-09-14 - 期刊:
- 影响因子:0
- 作者:
Zheng Ke - 通讯作者:
Zheng Ke
The impacts of water diversion on hydrodynamic regulation of plain river network
调水对平原河网水动力调节的影响
- DOI:
10.18307/2021.0212 - 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Yu Shan;L. Yiping;Chen Yixin;Shi Yuanyuan;Cheng Yue;H. Yanan;Zhu Ya;Pan Hongzhe;Yue Zhenwu;Zheng Ke - 通讯作者:
Zheng Ke
Germline mutations of multiple breast cancer-related genes are differentially associated with triple-negative breast cancers and prognostic factors
多个乳腺癌相关基因的种系突变与三阴性乳腺癌和预后因素存在差异相关
- DOI:
10.1038/s10038-020-0729-7 - 发表时间:
2020 - 期刊:
- 影响因子:3.5
- 作者:
Hata Chihiro;Nakaoka Hirofumi;Xiang Yu;Wang Dong;Yang Anping;Liu Dahai;Liu Fang;Zou Qingfeng;Wei Li;Zheng Ke;Inoue Ituro;You Hua - 通讯作者:
You Hua
Eldecalcitol prevents muscle loss and osteoporosis in disuse muscle atrophy via NF-κB signaling in mice
Eldecalcitol 通过 NF-κB 信号传导预防小鼠废用性肌肉萎缩中的肌肉损失和骨质疏松
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:4.9
- 作者:
Haichao Zhang;Yan;Wenjing Tang;Minmin Chen;Weijia Yu;Zheng Ke;Shuangshuang Dong;Qun Cheng - 通讯作者:
Qun Cheng
Sirtuin 7 plays an oncogenic role in human osteosarcoma via downregulating CDC4 expression.
Sirtuin 7 通过下调 CDC4 表达在人类骨肉瘤中发挥致癌作用。
- DOI:
- 发表时间:
2024-09-13 - 期刊:
- 影响因子:0
- 作者:
Wang Wei;Zhang Jing;Zheng Ke;Pei Yi - 通讯作者:
Pei Yi
Zheng Ke的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Zheng Ke', 18)}}的其他基金
Hidden Components in Modern Applications
现代应用中的隐藏组件
- 批准号:
1925845 - 财政年份:2018
- 资助金额:
$ 40万 - 项目类别:
Standard Grant
Hidden Components in Modern Applications
现代应用中的隐藏组件
- 批准号:
1712958 - 财政年份:2017
- 资助金额:
$ 40万 - 项目类别:
Standard Grant
相似国自然基金
面向图像目标检测的新型弱监督学习方法研究
- 批准号:62371157
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
基于自监督学习的非规则网格混采数据分离与重建方法研究
- 批准号:42304125
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
不完备多视图学习与缺失信息复原研究
- 批准号:62372136
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
病理图像深度学习可解释性关键技术研究
- 批准号:62371409
- 批准年份:2023
- 资助金额:53 万元
- 项目类别:面上项目
基于新型深度学习算法和多组学研究策略鉴定非编码区剪接突变在肌萎缩侧索硬化症中的分子机制
- 批准号:82371878
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
相似海外基金
CAREER: Accelerating Probabilistic Predictions of Sea-level Rise with Deep Learning
职业:利用深度学习加速海平面上升的概率预测
- 批准号:
2238316 - 财政年份:2023
- 资助金额:
$ 40万 - 项目类别:
Standard Grant
CAREER: Learning Structured Representations with Deep Probabilistic Programs
职业:通过深度概率程序学习结构化表示
- 批准号:
2047253 - 财政年份:2021
- 资助金额:
$ 40万 - 项目类别:
Continuing Grant
Predicting and controlling polygenic health traits using probabilistic models and evolution-inspired gene editing
使用概率模型和进化启发的基因编辑来预测和控制多基因健康特征
- 批准号:
10005708 - 财政年份:2020
- 资助金额:
$ 40万 - 项目类别:
Predicting and controlling polygenic health traits using probabilistic models and evolution-inspired gene editing
使用概率模型和进化启发的基因编辑来预测和控制多基因健康特征
- 批准号:
10477409 - 财政年份:2020
- 资助金额:
$ 40万 - 项目类别:
Predicting and controlling polygenic health traits using probabilistic models and evolution-inspired gene editing
使用概率模型和进化启发的基因编辑来预测和控制多基因健康特征
- 批准号:
10260453 - 财政年份:2020
- 资助金额:
$ 40万 - 项目类别: