CAREER: Statistically-Sound Knowledge Discovery from Data
职业:从数据中发现统计上合理的知识
基本信息
- 批准号:2238693
- 负责人:
- 金额:$ 60.03万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-10-01 至 2028-09-30
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Methods for knowledge discovery from data (e.g., for extracting patterns or finding anomalies) have found their way to research labs in life and biological sciences, and in industries such as cybersecurity. In these fields, the statistical validity of the results produced by these methods is paramount: false discoveries cannot be tolerated. Current methods do not offer such stringent statistical guarantees. This project develops algorithms for statistically-sound Knowledge Discovery from Data. It transforms the field by shifting the goal of the Knowledge Discovery process from extracting information about the available data to gaining new understanding of the noisy, random process that generates the data. The proposed methods contribute towards a faster and higher-throughput scientific pipeline, by allowing scientists and practitioners to efficiently analyze rich large datasets and to trust the results of the analysis. Researchers can then focus on their discipline-specific research tasks without worrying about computational or statistical considerations. The project includes collaborations with a local museum and a local public library, to analyze data about their collections of historic materials, and with a cybersecurity company to develop methods for fast detection of network attacks with few false positives. A diverse cohort of undergraduate students will be involved in the research and educational components of the project.Research in knowledge discovery has mostly focused on understanding the available data, rather than the process that generated it. In the few cases where hypothesis testing was used to assess the results (mostly for simple patterns), only simplistic null models were considered, and the testing employed low-statistical-power approaches (e.g., the Bonferroni correction) to control only for one measure of false discovery, the Family-Wise Error Rate. This project is transformative because it will develop efficient methods for evaluating a wide variety of results (e.g., patterns, anomalies, graph/vertex/edge properties, and more) obtained from large rich datasets (e.g., transactional datasets, graphs, and time series), using realistic null models which are more appropriate for these tasks, and better encode available knowledge of the data generating process. We will create novel efficient procedures to sample from such models, both approximate (e.g., Markov-Chain Monte Carlo) and exact, and combine them with modern resampling- based multiple testing methods, in a multiple-hypothesis first approach that also controls the (marginal) False Discovery Rate.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
从数据中发现知识的方法(例如,提取模式或发现异常)已经在生命和生物科学以及网络安全等行业的研究实验室中找到了自己的方法。在这些领域,这些方法产生的结果的统计有效性至关重要:错误的发现是不能容忍的。当前的方法无法提供如此严格的统计保证。该项目开发了从数据中发现统计上合理的知识的算法。它通过将知识发现过程的目标从提取有关可用数据的信息转变为对生成数据的嘈杂、随机过程进行新的理解,从而改变了该领域。所提出的方法使科学家和从业者能够有效地分析丰富的大型数据集并信任分析结果,从而有助于建立更快、更高通量的科学管道。然后,研究人员可以专注于特定学科的研究任务,而不必担心计算或统计方面的考虑。该项目包括与当地博物馆和当地公共图书馆合作,分析其历史资料收藏的数据,并与网络安全公司合作开发快速检测网络攻击且误报率极低的方法。各种各样的本科生将参与该项目的研究和教育部分。知识发现的研究主要集中在理解可用数据,而不是生成数据的过程。在使用假设检验来评估结果的少数情况下(主要针对简单模式),仅考虑简单的零模型,并且测试采用低统计功效方法(例如 Bonferroni 校正)来仅控制一项测量错误发现,家庭错误率。该项目具有变革性,因为它将开发有效的方法来评估从大型丰富数据集(例如事务数据集、图形和时间序列)获得的各种结果(例如模式、异常、图/顶点/边属性等) ),使用更适合这些任务的真实空模型,并更好地编码数据生成过程的可用知识。我们将创建新颖的有效程序来从此类模型中进行采样,包括近似模型(例如,马尔可夫链蒙特卡罗)和精确模型,并将它们与现代基于重采样的多重测试方法相结合,采用多假设优先方法,该方法还控制(该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Matteo Riondato其他文献
The VC-Dimension of SQL Queries and Selectivity Estimation through Sampling
SQL查询的VC维和通过采样估计选择性
- DOI:
10.1007/978-3-642-23783-6_42 - 发表时间:
2011 - 期刊:
- 影响因子:5.7
- 作者:
Matteo Riondato;M. Akdere;U. Çetintemel;S. Zdonik;E. Upfal - 通讯作者:
E. Upfal
Sampling-Based Data Mining Algorithms: Modern Techniques and Case Studies
基于采样的数据挖掘算法:现代技术和案例研究
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
Matteo Riondato - 通讯作者:
Matteo Riondato
Sharpe Ratio: Estimation, Confidence Intervals, and Hypothesis Testing
夏普比率:估计、置信区间和假设检验
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Matteo Riondato - 通讯作者:
Matteo Riondato
Statistically-Sound Knowledge Discovery from Data: Challenges and Directions
从数据中发现统计上合理的知识:挑战和方向
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Matteo Riondato - 通讯作者:
Matteo Riondato
Matteo Riondato的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Matteo Riondato', 18)}}的其他基金
III: Small: RUI: Scalable and Iterative Statistical Testing of Multiple Hypotheses on Massive Datasets
III:小型:RUI:海量数据集上多个假设的可扩展和迭代统计检验
- 批准号:
2006765 - 财政年份:2020
- 资助金额:
$ 60.03万 - 项目类别:
Standard Grant
NSF Student Travel Grant for 2019 SIAM International Conference on Data Mining (SDM)
2019 年 SIAM 国际数据挖掘会议 (SDM) NSF 学生旅费补助
- 批准号:
1918446 - 财政年份:2019
- 资助金额:
$ 60.03万 - 项目类别:
Standard Grant
相似国自然基金
整合复杂网络的高维统计推断及其在基因组学数据上的应用
- 批准号:12271329
- 批准年份:2022
- 资助金额:46 万元
- 项目类别:面上项目
大规模域空间上统计推断的性能极限及高效算法
- 批准号:12101353
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
非高斯时空统计模型及其在卫星遥感大数据上的应用
- 批准号:11901316
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
空间填充设计统计性质研究与在快速算法上的应用
- 批准号:11801033
- 批准年份:2018
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
泛不确定测度空间上的统计学习理论基础研究
- 批准号:11626079
- 批准年份:2016
- 资助金额:3.0 万元
- 项目类别:数学天元基金项目
相似海外基金
Research Initiative for Scientific Enhancement (RISE)
科学增强研究计划 (RISE)
- 批准号:
7629839 - 财政年份:2000
- 资助金额:
$ 60.03万 - 项目类别:
Minority Biomedical Career Enhancement at Cal State LA
加州州立大学洛杉矶分校的少数族裔生物医学职业提升
- 批准号:
7257026 - 财政年份:2000
- 资助金额:
$ 60.03万 - 项目类别: