CAREER: Statistically-Sound Knowledge Discovery from Data
职业:从数据中发现统计上合理的知识
基本信息
- 批准号:2238693
- 负责人:
- 金额:$ 60.03万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-10-01 至 2028-09-30
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Methods for knowledge discovery from data (e.g., for extracting patterns or finding anomalies) have found their way to research labs in life and biological sciences, and in industries such as cybersecurity. In these fields, the statistical validity of the results produced by these methods is paramount: false discoveries cannot be tolerated. Current methods do not offer such stringent statistical guarantees. This project develops algorithms for statistically-sound Knowledge Discovery from Data. It transforms the field by shifting the goal of the Knowledge Discovery process from extracting information about the available data to gaining new understanding of the noisy, random process that generates the data. The proposed methods contribute towards a faster and higher-throughput scientific pipeline, by allowing scientists and practitioners to efficiently analyze rich large datasets and to trust the results of the analysis. Researchers can then focus on their discipline-specific research tasks without worrying about computational or statistical considerations. The project includes collaborations with a local museum and a local public library, to analyze data about their collections of historic materials, and with a cybersecurity company to develop methods for fast detection of network attacks with few false positives. A diverse cohort of undergraduate students will be involved in the research and educational components of the project.Research in knowledge discovery has mostly focused on understanding the available data, rather than the process that generated it. In the few cases where hypothesis testing was used to assess the results (mostly for simple patterns), only simplistic null models were considered, and the testing employed low-statistical-power approaches (e.g., the Bonferroni correction) to control only for one measure of false discovery, the Family-Wise Error Rate. This project is transformative because it will develop efficient methods for evaluating a wide variety of results (e.g., patterns, anomalies, graph/vertex/edge properties, and more) obtained from large rich datasets (e.g., transactional datasets, graphs, and time series), using realistic null models which are more appropriate for these tasks, and better encode available knowledge of the data generating process. We will create novel efficient procedures to sample from such models, both approximate (e.g., Markov-Chain Monte Carlo) and exact, and combine them with modern resampling- based multiple testing methods, in a multiple-hypothesis first approach that also controls the (marginal) False Discovery Rate.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
从数据(例如,提取模式或发现异常)中发现知识的方法已经找到了研究生活和生物科学领域以及网络安全等行业的方法。在这些领域中,这些方法产生的结果的统计有效性至关重要:错误的发现无法容忍。当前方法不提供此类严格的统计保证。该项目开发了从数据中发现统计信息知识发现的算法。它通过将知识发现过程的目标从提取有关可用数据的信息转换为对生成数据的嘈杂,随机过程的新理解来改变了领域。提出的方法通过允许科学家和从业人员有效地分析丰富的大型数据集并信任分析结果,从而有助于更快,更高的科学管道。然后,研究人员可以专注于他们的学科特定研究任务,而不必担心计算或统计考虑。该项目包括与当地博物馆和当地公共图书馆的合作,分析有关其历史材料收集的数据,以及与网络安全公司开发的方法,以开发用于快速检测网络攻击的方法,几乎没有误报。各种各样的本科生将参与该项目的研究和教育组成部分。搜索知识发现主要集中于理解可用数据,而不是生成该数据的过程。在少数情况下,使用假设检验来评估结果(主要用于简单模式),仅考虑了简单的空模型,并且采用的测试采用低统计能力方法(例如,Bonferroni校正)仅控制一个虚假发现的量度,即家庭智慧错误率。该项目具有变革性,因为它将开发有效的方法来评估各种结果(例如,模式,异常,图形/顶点/边缘属性等),从大型丰富的数据集(例如,交易数据集,图形和时间序列),使用现实主义的零模型,这些模型更合适,可用于这些任务的知识,并获得了更好的编码知识。我们将创建新颖的有效程序,以从此类模型中进行采样,包括大约(例如马尔可夫链蒙特卡洛)和精确的方法,并将它们与现代基于重新采样的多个测试方法结合使用,在多种方法的第一种方法中,还控制着(边际)虚假发现率,这些奖项反映了NSF的合法任务和良好的依据。 标准。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Matteo Riondato其他文献
The VC-Dimension of SQL Queries and Selectivity Estimation through Sampling
SQL查询的VC维和通过采样估计选择性
- DOI:
10.1007/978-3-642-23783-6_42 - 发表时间:
2011 - 期刊:
- 影响因子:5.7
- 作者:
Matteo Riondato;M. Akdere;U. Çetintemel;S. Zdonik;E. Upfal - 通讯作者:
E. Upfal
Sampling-Based Data Mining Algorithms: Modern Techniques and Case Studies
基于采样的数据挖掘算法:现代技术和案例研究
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
Matteo Riondato - 通讯作者:
Matteo Riondato
Sharpe Ratio: Estimation, Confidence Intervals, and Hypothesis Testing
夏普比率:估计、置信区间和假设检验
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Matteo Riondato - 通讯作者:
Matteo Riondato
MiSoSouP: Mining Interesting Subgroups with Sampling and Pseudodimension
MiSoSouP:通过采样和伪维度挖掘有趣的子群
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Matteo Riondato;Fabio Vandin - 通讯作者:
Fabio Vandin
Matteo Riondato的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Matteo Riondato', 18)}}的其他基金
III: Small: RUI: Scalable and Iterative Statistical Testing of Multiple Hypotheses on Massive Datasets
III:小型:RUI:海量数据集上多个假设的可扩展和迭代统计检验
- 批准号:
2006765 - 财政年份:2020
- 资助金额:
$ 60.03万 - 项目类别:
Standard Grant
NSF Student Travel Grant for 2019 SIAM International Conference on Data Mining (SDM)
2019 年 SIAM 国际数据挖掘会议 (SDM) NSF 学生旅费补助
- 批准号:
1918446 - 财政年份:2019
- 资助金额:
$ 60.03万 - 项目类别:
Standard Grant
相似国自然基金
右删失下高维生存数据的统计推断及其在组学数据上的应用
- 批准号:12371264
- 批准年份:2023
- 资助金额:44.00 万元
- 项目类别:面上项目
整合复杂网络的高维统计推断及其在基因组学数据上的应用
- 批准号:12271329
- 批准年份:2022
- 资助金额:46 万元
- 项目类别:面上项目
大规模域空间上统计推断的性能极限及高效算法
- 批准号:12101353
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
非高斯时空统计模型及其在卫星遥感大数据上的应用
- 批准号:11901316
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
空间填充设计统计性质研究与在快速算法上的应用
- 批准号:11801033
- 批准年份:2018
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Research Initiative for Scientific Enhancement (RISE)
科学增强研究计划 (RISE)
- 批准号:
7629839 - 财政年份:2000
- 资助金额:
$ 60.03万 - 项目类别:
Minority Biomedical Career Enhancement at Cal State LA
加州州立大学洛杉矶分校的少数族裔生物医学职业提升
- 批准号:
7257026 - 财政年份:2000
- 资助金额:
$ 60.03万 - 项目类别: