高维异质性回归模型的融合分析和统计推断研究
项目介绍
AI项目解读
基本信息
- 批准号:11901352
- 项目类别:青年科学基金项目
- 资助金额:25.0万
- 负责人:
- 依托单位:
- 学科分类:A0403.贝叶斯统计与统计应用
- 结题年份:2022
- 批准年份:2019
- 项目状态:已结题
- 起止时间:2020-01-01 至2022-12-31
- 项目参与者:--
- 关键词:
项目摘要
In some fields such as financial markets, econometrics, biomedical engineering, due to the development of science and technology and the complexity of practical problems, the collected high-dimensional data also suffers heterogeneity.The high-dimensional and heterogeneous regression data characterizes that the significant covariates vary along with different observations, causing that traditional single or homogeneous modeling on the whole datasets is unavailable and this poses a new challenge for statisticians. Variable selection method has been widely studied in dealing with high-dimensional issue. Although it has been regarded as an effective method of dimension reduction for selecting the active predictors,it has rarely been studied in the situation of high-dimensionality and heterogeneity. For conducting statistical modeling for high-dimensional and heterogeneous data,this project considers sparsity and.subgroup structures for high-dimensionality and heterogeneity respectively and adopt strategy of combining sparsity-induced penalty and.fused penalty, or the way of combining K-regression method and sparsity-induced penalty. Then all proposed methods can estimate sparsity and subgroup structures, and the unknown regression parameters simultaneously. By the technology of modern statistical analysis, we prove the consistency and oracle property for every proposed method in theory and check their behaviors of finite sample through a lot of numerical simulations. At the same time, we study the issue of statistical inference for the data after variable selection and apply it to the analysis of the practical data problems with high-dimensionality and heterogeneity.
随着科技的进步,金融市场、计量经济、生物医学工程等领域数据结构愈加复杂,回归数据的高维性和异质性特征愈发明显。高维异质性数据的显著特征是重要变量具有个体差异性,这导致传统的单一或同质性回归建模不再适用,这给统计工作者提出了新的挑战。在处理高维数据问题中,变量选择方法已被广泛研究和应用,并被认为是筛选重要变量的有效降维方法,但是目前尚未扩展其到高维异质性数据的研究。针对高维异质性数据的统计建模,课题分别假定稀疏和子群结构用于解决高维性和异质性问题,利用稀疏惩罚和融合惩罚这种双惩罚策略,或联合K回归与稀疏惩罚技术,可以同时估计出未知的稀疏和子群结构以及回归参数。课题进一步运用现代统计分析技术,从理论上证明所提方法满足相合性和Oracle性质,并且通过大量的数值模拟研究其有限样本性质。最后对降维后的数据进一步做统计推断,并应用于高维异质性数据的实际分析。
结项摘要
近年来,生物统计、经济、金融领域产生了大量的高维数据,而这些高维大数据集由于收集的时间段、地点、方法不同,存在着异质性;由于噪声多,存在着大量与响应变量无关的协变量,即存在稀疏性。在回归分析问题中,尤其是高维数据集下的问题,假设所有不同数据集中协变量的系数都相同是不合理的。在不同的数据集单元内,一些协变量对响应变量的影响是不同的,忽视这种异质性会导致最终模型的偏差和结论的错误。这样的背景下,对于高维异质性回归模型的融合分析和统计推断的研究是势在必行的。.在理论方面,本项目在高维数据下基于协变量确定的异质性稀疏结构的融合分析和统计推断问题中,通过有效利用数据集的存储和读取提出实现了交替方向的乘数算法(ADMM),并证明了所提算法的收敛性质;基于交替方向的乘数算法(ADMM),提出了Block_ADMM算法,从新的角度阐述了非凸性聚类的机制,并首次解释了非凸性聚类中如何识别远离最近聚类中心的离群值;在基于异质性内稀疏结构的融合分析和统计推断问题中,提出了K-回归模型;提出了协变量随机缺失情况下的广义线性模型的模型平均方法;提出了协变量随机缺失情况下的多重分位数回归的模型平均方法。.在应用方面,本项目提出用分类编码方法选择特征基因进行大量和单细胞RNA-seq数据的分类;提出了用于估计高血压影响因素的异质性逻辑回归方法;提出了高维生存分析预测的最优模型平均方法;提出了用连续特定年龄标准化死亡率估计早期COV-19疫情方法。.项目的研究取得了一定的成果,包括组织国内外会议和专家交流报告13场,发表学术论文9篇在Statistica Sinica, Statistics, Statistics in Medicine, Journal of Applied Statistics, Journal of Multivariate Analysis, International Journal of Forecasting, Journal of Biopharmaceutical Statistics, Journal of Statistical Computation and Simulation这些著名国际期刊上。
项目成果
期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Category encoding method to select feature genes for the classification of bulk and single-cell RNA-seq data
用于选择特征基因以对批量和单细胞 RNA-seq 数据进行分类的类别编码方法
- DOI:10.1002/sim.9015
- 发表时间:2021
- 期刊:Statistics in Medicine
- 影响因子:2
- 作者:Zhou Yan;Zhang Li;Xu Jinfeng;Zhang Jun;Yan Xiaodong
- 通讯作者:Yan Xiaodong
Integrative analysis for high-dimensional stratified models
高维分层模型的综合分析
- DOI:10.5705/ss.202021.0276
- 发表时间:2023
- 期刊:Statistica Sinica
- 影响因子:1.4
- 作者:Jian Huang;Yuling Jiao;Wei Wang;Xiaodong Yan;Liping Zhu
- 通讯作者:Liping Zhu
Model averaging for generalized linear models with missing at random covariates
随机协变量缺失的广义线性模型的模型平均
- DOI:10.1080/02331888.2022.2161094
- 发表时间:2022-12
- 期刊:Statistics
- 影响因子:1.9
- 作者:Weili Cheng;Xiaorui Li;Xiaoxia Li;Xiaodong Yan
- 通讯作者:Xiaodong Yan
Heterogeneous logistic regression for estimation of subgroup effects on hypertension
用于估计高血压亚组效应的异质逻辑回归
- DOI:10.1080/10543406.2022.2058528
- 发表时间:2022-05
- 期刊:Journal of Biopharmaceutical Statistics
- 影响因子:1.1
- 作者:Xiaodong Yan;Hongni Wang;Yanqiu Zhou;Jingxin Yan;Ying Wang;Wei Wang;Jinhan Xie;Shu Yang;Ziqian Zeng;Xinyun Chen
- 通讯作者:Xinyun Chen
Optimal Model Averaging Forecasting in High-Dimensional Survival Analysis
高维生存分析中的最优模型平均预测
- DOI:10.1016/j.ijforecast.2020.12.004
- 发表时间:2021
- 期刊:International Journal of forecasting
- 影响因子:7.9
- 作者:Yan Xiaodong;Wang Hongni;Wang Wei;Xie Jinhan;Ren Yanyan;Wang Xinjun
- 通讯作者:Wang Xinjun
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}