Scalable Learning with Ensemble Techniques and Parallel Computing

使用集成技术和并行计算的可扩展学习

基本信息

  • 批准号:
    7748401
  • 负责人:
  • 金额:
    $ 14.34万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2008
  • 资助国家:
    美国
  • 起止时间:
    2008-05-01 至 2010-03-14
  • 项目状态:
    已结题

项目摘要

DESCRIPTION (provided by applicant): The ability to conduct basic and applied biomedical research is becoming increasingly dependent on data produced by new and emerging technologies. This data has an unprecedented amount of detail and volume. Researchers are therefore dependent on computing and computational tools to be able to visualize, analyze, model, and interpret these large and complex sets of data. Tools for disease detection, diagnosis, treatment, and prevention are common goals of many, if not all, biomedical research programs. Sound analytical and statistical theory and methodology for class pre- diction and class discovery lay the foundation for building these tools, of which the machine learning techniques of classification (supervised learning) and clustering (unsupervised learning) are crucial. Our goal is to produce software for analysis and interpretation of large data sets using ensemble machine learning techniques and parallel computing technologies. Ensemble techniques are recent advances in machine learning theory and methodology leading to great improvements in accuracy and stability in data set analysis and interpretation. The results from a committee of primary machine learners (classifiers or clusterers) that have been trained on different instance or feature subsets are combined through techniques such as voting. The high prediction accuracy of classifier ensembles (such as boosting, bagging, and random forests) has generated much excitement in the statistics and machine learning communities. Recent research extends the ensemble methodology to clustering, where class information is unavailable, also yielding superior performance in terms of accuracy and stability. In theory, most ensemble techniques are inherently parallel. However, existing implementations are generally serial and assume the data set is memory resident. Therefore current software will not scale to the large data sets produced in today's biomedical research. We propose to take two approaches to scale ensemble techniques to large data sets: data partitioning approaches and parallel computing. The focus of Phase I will be to prototype scalable classifier ensembles using parallel architectures. We intend to: establish the parallel computing infrastructures; produce a preliminary architecture and software design; investigate a wide range of ensemble generation schemes using data partitioning strategies; and implement scalable bagging and random forests based on the preliminary design. The focus of Phase II will be to complete the software architecture and implement the scalable classifier ensembles and scalable clusterer ensembles within this framework. We intend to: complete research and development of classifier ensembles; extend the classification framework to clusterer ensembles; research and develop a unified interface for building ensembles with differing generation mechanisms and combination strategies; and evaluate the effectiveness of the software on simulated and real data. PUBLIC HEALTH RELEVANCE: The common goals to many, if not all, biomedical research programs are the development of tools for disease detection, diagnosis, treatment, and prevention. These programs often rely on new types of data that have an unprecedented amount of detail and volume. Our goal is to produce software for the analysis and interpretation of large data sets using ensemble machine learning techniques and parallel computing technologies to enable researchers who are dependent on computational tools to have the ability to visualize, analyze, model, and interpret these large and complex sets of data.
描述(由申请人提供):进行基本和应用生物医学研究的能力越来越依赖于新的和新兴技术产生的数据。该数据具有前所未有的细节和音量。因此,研究人员取决于计算和计算工具,以便能够可视化,分析,建模和解释这些大型且复杂的数据集。疾病检测,诊断,治疗和预防工具是许多(如果不是全部)生物医学研究计划的共同目标。班级词典和类发现的声音分析和统计理论和方法论为建立这些工具奠定了基础,其中机器学习技术(有监督的学习)和聚类(无监督学习)至关重要。我们的目标是使用集成机器学习技术和并行计算技术生产用于分析和解释大型数据集的软件。集合技术是机器学习理论和方法论的最新进展,从而在数据集分析和解释中的准确性和稳定性方面得到了极大的提高。在不同实例或特征子集培训的主要机器学习者(分类器或簇)委员会的结果是通过投票等技术组合的。分类器合奏(例如增强,包装和随机森林)的高预测准确性引起了统计和机器学习社区的兴奋。最近的研究将集成方法扩展到集体信息,在班级信息不可用,在准确性和稳定性方面也产生了卓越的性能。从理论上讲,大多数合奏技术本质上是平行的。但是,现有的实现通常是串行的,并假设数据集是内存居民。因此,当前的软件不会扩展到当今生物医学研究中产生的大型数据集。我们建议采用两种方法将集合技术扩展到大型数据集:数据分配方法和并行计算。阶段I的重点是使用并行体系结构进行原型可扩展的分类器集合。我们打算:建立并行计算基础架构;生产初步的体系结构和软件设计;使用数据分配策略研究各种合奏生成方案;并根据初步设计实施可扩展的包装和随机森林。第二阶段的重点将是完成软件体系结构并在此框架内实现可扩展的分类器组合和可扩展的层集合。我们打算:完整的分类器合奏的研究和开发;将分类框架扩展到clusterer sembles;研究并开发了一个统一的界面,用于建立具有不同生成机制和组合策略的合奏;并评估软件对模拟和真实数据的有效性。公共卫生相关性:许多(如果不是全部)生物医学研究计划的共同目标是开发疾病检测,诊断,治疗和预防工具。这些程序通常依赖于具有前所未有的细节和音量的新类型的数据。我们的目标是使用集成机器学习技术和并行计算技术生产用于分析和解释大型数据集的软件,以使依赖计算工具的研究人员能够能够可视化,分析,建模和解释这些大型且复杂的数据集。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

ERIK J NILSSON其他文献

ERIK J NILSSON的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('ERIK J NILSSON', 18)}}的其他基金

Rapid Microbial ID Direct From Specimen
直接从样本进行快速微生物鉴定
  • 批准号:
    10699890
  • 财政年份:
    2023
  • 资助金额:
    $ 14.34万
  • 项目类别:
Isotopic Labeling Rapid Antimicrobial Susceptibility Testing
同位素标记快速抗菌药物敏感性测试
  • 批准号:
    10325820
  • 财政年份:
    2021
  • 资助金额:
    $ 14.34万
  • 项目类别:
Feature Learning For Improved Multiplex Disease Diagnosis
用于改进多种疾病诊断的特征学习
  • 批准号:
    9813275
  • 财政年份:
    2018
  • 资助金额:
    $ 14.34万
  • 项目类别:
Feature Learning For Improved Multiplex Disease Diagnosis
用于改进多种疾病诊断的特征学习
  • 批准号:
    9813280
  • 财政年份:
    2018
  • 资助金额:
    $ 14.34万
  • 项目类别:
Digital Microfluidics SAWN
数字微流控SAWN
  • 批准号:
    8834920
  • 财政年份:
    2014
  • 资助金额:
    $ 14.34万
  • 项目类别:
Cloud-computing MapReduce toSearch for Post-Translationally Modified Peptides
云计算 MapReduce 搜索翻译后修饰的肽
  • 批准号:
    8002844
  • 财政年份:
    2010
  • 资助金额:
    $ 14.34万
  • 项目类别:
Scalable Learning with Ensemble Techniques and Parallel Computing
使用集成技术和并行计算的可扩展学习
  • 批准号:
    8013208
  • 财政年份:
    2008
  • 资助金额:
    $ 14.34万
  • 项目类别:
Scalable Learning with Ensemble Techniques and Parallel Computing
使用集成技术和并行计算的可扩展学习
  • 批准号:
    8045486
  • 财政年份:
    2008
  • 资助金额:
    $ 14.34万
  • 项目类别:
Scalable Secure Sharable Computation Platform for Proteomics Data Analysis
用于蛋白质组学数据分析的可扩展安全可共享计算平台
  • 批准号:
    7433587
  • 财政年份:
    2008
  • 资助金额:
    $ 14.34万
  • 项目类别:
A collaboration platform for proteomics biomarker analysis
蛋白质组学生物标志物分析协作平台
  • 批准号:
    7326764
  • 财政年份:
    2005
  • 资助金额:
    $ 14.34万
  • 项目类别:

相似国自然基金

统一大内存并行计算机体系结构与关键技术
  • 批准号:
    62332021
  • 批准年份:
    2023
  • 资助金额:
    231.00 万元
  • 项目类别:
    重点项目
基于并行平台和人工智能加速器的高性能密码计算技术研究
  • 批准号:
    61902392
  • 批准年份:
    2019
  • 资助金额:
    27.0 万元
  • 项目类别:
    青年科学基金项目
大规模泥石流数值模拟的异构并行计算技术研究
  • 批准号:
    61962051
  • 批准年份:
    2019
  • 资助金额:
    41 万元
  • 项目类别:
    地区科学基金项目
面向国产异构超级计算机的高性能矩量法关键技术研究
  • 批准号:
    61901323
  • 批准年份:
    2019
  • 资助金额:
    23.0 万元
  • 项目类别:
    青年科学基金项目
面向多核并行计算的元胞自动机图像加密技术研究
  • 批准号:
    61902110
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

High-resolution cerebral microvascular imaging for characterizing vascular dysfunction in Alzheimer's disease mouse model
高分辨率脑微血管成像用于表征阿尔茨海默病小鼠模型的血管功能障碍
  • 批准号:
    10848559
  • 财政年份:
    2023
  • 资助金额:
    $ 14.34万
  • 项目类别:
Genomics Research Experience for Master's Students (GEMS) Fellowship
硕士生基因组学研究经验(GEMS)奖学金
  • 批准号:
    10628537
  • 财政年份:
    2023
  • 资助金额:
    $ 14.34万
  • 项目类别:
Data-Driven Approaches to Identify Biomarkers for Guiding Coronary Artery Bifurcation Lesion Interventions from Patient-Specific Hemodynamic Models
从患者特异性血流动力学模型中识别生物标志物的数据驱动方法,用于指导冠状动脉分叉病变干预
  • 批准号:
    10373696
  • 财政年份:
    2022
  • 资助金额:
    $ 14.34万
  • 项目类别:
Data-Driven Approaches to Identify Biomarkers for Guiding Coronary Artery Bifurcation Lesion Interventions from Patient-Specific Hemodynamic Models
从患者特异性血流动力学模型中识别生物标志物的数据驱动方法,用于指导冠状动脉分叉病变干预
  • 批准号:
    10681210
  • 财政年份:
    2022
  • 资助金额:
    $ 14.34万
  • 项目类别:
Trends of disparities in breast cancer progression and health care considering multilevel risk factors
考虑多层次危险因素的乳腺癌进展和医疗保健差异趋势
  • 批准号:
    10835483
  • 财政年份:
    2022
  • 资助金额:
    $ 14.34万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了