BIGDATA: Mid-Scale: DA: Collaborative Research: Big Tensor Mining: Theory, Scalable Algorithms and Applications
BIGDATA:中型:DA:协作研究:大张量挖掘:理论、可扩展算法和应用
基本信息
- 批准号:1247489
- 负责人:
- 金额:$ 89.49万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2012
- 资助国家:美国
- 起止时间:2012-12-01 至 2018-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Tensors are multi-dimensional generalizations of matrices, and so can have non-numeric entries. Extremely large and sparse coupled tensors arise in numerous important applications that require the analysis of large, diverse, and partially related data. The effective analysis of coupled tensors requires the development of algorithms and associated software that can identify the core relations that exist among the different tensor modes, and scale to extremely large datasets. The objective of this project is to develop theory and algorithms for (coupled) sparse and low-rank tensor factorization, and associated scalable software toolkits to make such analysis possible. The research in the project is centered on three major thrusts. The first is designed to make novel theoretical contributions in the area of coupled tensor factorization, by developing multi-way compressed sensing methods for dimensionality reduction with perfect latent model reconstruction. Methods to handle missing values, noisy input, and coupled data will also be developed. The second thrust focuses on algorithms and scalability on modern architectures, which will enable the efficient analysis of coupled tensors with millions and billions of non-zero entries, using the map-reduce paradigm, as well as hybrid multicore architectures. An open-source coupled tensor factorization toolbox (HTF- Hybrid Tensor Factorization) will be developed that will provide robust and high-performance implementations of these algorithms. Finally, the third thrust focuses on evaluating and validating the effectiveness of these coupled factorization algorithms on a NeuroSemantics application whose goal is to understand how human brain activity correlates with text reading & understanding by analyzing fMRI and MEG brain image datasets obtained while reading various text passages.Given triplets of facts (subject-verb-object), like ('Washington' 'is the capital of' 'USA'), can we find patterns, new objects, new verbs, anomalies? Can we correlate these with brain scans of people reading these words, to discover which parts of the brain get activated, say, by tool-like nouns ('hammer'), or action-like verbs ('run')? We propose a unified "coupled tensor" factorization framework to systematically mine such datasets. Unique challenges in these settings include (a) tera- and peta-byte scaling issues, (b) distributed fault-tolerant computation, (c) large proportions of missing data, and (d) insufficient theory and methods for big sparse tensors. The Intellectual Merit of this effort is exactly the solution to the above four challenges.The Broader Impact is the derivation of new scientific hypotheses on how the brain works and how it processes language (from the never-ending language learning (NELL) and NeuroSemantics projects) and the development of scalable open source software for coupled tensor factorization. Our tensor analysis methods can also be used in many other settings, including recommendation systems and computer-network intrusion/anomaly detection.KEYWORDS:Data mining; map/reduce; read-the-web; neuro-semantics; tensors.
张量是矩阵的多维概括,因此可以具有非数字条目。在需要分析大型,多样化和部分相关数据的许多重要应用中,出现了极大稀疏的耦合张量。对耦合张量的有效分析需要开发算法和相关软件,这些软件可以识别不同张量模式之间存在的核心关系,并扩展到非常大的数据集。该项目的目的是开发(耦合)稀疏和低量张量分解的理论和算法,以及相关的可扩展软件工具包,以使这种分析成为可能。该项目的研究集中在三个主要推力上。第一个旨在通过开发多道路压缩感测方法来减少尺寸,以通过完美的潜在模型重建来开发多路压缩传感方法,从而在耦合张量分解方面做出新的理论贡献。处理缺失值,嘈杂输入和耦合数据的方法也将开发。第二个推力着重于对现代体系结构的算法和可扩展性,这将使使用MAP-REDUCE范式以及混合多层架构进行有效分析具有数百万和数十亿个非零条目的耦合张量。将开发一个开源耦合张量分解工具箱(HTF-混合张量分解),该工具箱将提供这些算法的强大且高性能的实现。最后,第三个推力重点是评估和验证这些耦合分解算法在神经学应用程序上的有效性我们发现模式,新对象,新动词,异常?我们可以将它们与阅读这些单词的人的脑部扫描相关联,以发现大脑的哪些部分被类似工具的名词(“ hammer')或类似动作的动词(“ run un un un”)激活?我们提出了一个统一的“耦合张量”分解框架,以系统地挖掘此类数据集。这些设置中的独特挑战包括(a)TERA和PETA-BYTE缩放问题,(b)分布式耐故障计算,(c)大量丢失的数据,以及(d)大稀疏张量的理论和方法不足。这项工作的智力优点正是解决上述四个挑战的解决方案。更广泛的影响是推导有关大脑如何运作的新科学假设以及如何处理语言(从永无止境的语言学习(NELL)和神经使用者项目)以及开发可扩展的开源软件来开发构造张力分解的可扩展开源软件。我们的张量分析方法也可以用于许多其他设置,包括建议系统和计算机网络入侵/异常检测。关键单词:数据挖掘;地图/减少;阅读 - 网络;神经仪式;张量。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Christos Faloutsos其他文献
実社会データへの機械学習応用
机器学习在现实世界数据中的应用
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
Yasushi Sakurai;Yasuko Matsubara;Christos Faloutsos;櫻井 保志;櫻井 保志 - 通讯作者:
櫻井 保志
大規模時系列データからの特徴自動抽出
从大规模时间序列数据中自动提取特征
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
松原靖子、櫻井保志;Christos Faloutsos - 通讯作者:
Christos Faloutsos
大規模オンライン活動データの特徴自動抽出
大规模在线活动数据自动特征提取
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
松原靖子;櫻井保志;Christos Faloutsos - 通讯作者:
Christos Faloutsos
時系列ビッグデータのための非線形解析とその応用
时间序列大数据的非线性分析及其应用
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Yasuko Matsubara;Yasushi Sakurai;Christos Faloutsos;松原靖子 - 通讯作者:
松原靖子
イメージの鮮明度と残像の明瞭さの関係
图像清晰度与残像清晰度之间的关系
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
Yasuko Matsubara;Yasushi Sakurai;Christos Faloutsos;廣瀬健司・菱谷晋介 - 通讯作者:
廣瀬健司・菱谷晋介
Christos Faloutsos的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Christos Faloutsos', 18)}}的其他基金
III: Medium: Collaborative Research: Collective Opinion Fraud Detection: Identifying and Integrating Cues from Language, Behavior, and Networks
III:媒介:协作研究:集体意见欺诈检测:识别和整合来自语言、行为和网络的线索
- 批准号:
1408924 - 财政年份:2014
- 资助金额:
$ 89.49万 - 项目类别:
Standard Grant
TWC: Medium: Collaborative: Know Thy Enemy: Data Mining Meets Networks for Understanding Web-Based Malware Dissemination
TWC:媒介:协作:了解你的敌人:数据挖掘与网络结合以了解基于 Web 的恶意软件传播
- 批准号:
1314632 - 财政年份:2013
- 资助金额:
$ 89.49万 - 项目类别:
Standard Grant
CGV: Small: Making Sense out of Large Graphs - Bridging HCI with Data Mining
CGV:小:从大图中理解 - 连接 HCI 与数据挖掘
- 批准号:
1217559 - 财政年份:2012
- 资助金额:
$ 89.49万 - 项目类别:
Continuing Grant
III: Small: Influence and Virus Propagation in Large Graphs - Theory and Algorithms
III:小:大图中的影响和病毒传播 - 理论和算法
- 批准号:
1017415 - 财政年份:2010
- 资助金额:
$ 89.49万 - 项目类别:
Standard Grant
The Second Workshop on Large-Scale Data Mining: Theory and Applications
第二届大规模数据挖掘:理论与应用研讨会
- 批准号:
1045306 - 财政年份:2010
- 资助金额:
$ 89.49万 - 项目类别:
Standard Grant
III-CXT-Large: Collaborative Research: Interactive and Intelligent searching of biological images by query and network navigation with learning capabilities.
III-CXT-Large:协作研究:通过具有学习功能的查询和网络导航对生物图像进行交互式和智能搜索。
- 批准号:
0808661 - 财政年份:2008
- 资助金额:
$ 89.49万 - 项目类别:
Standard Grant
III-COR: Collaborative Research: Mining Biomedical and Network Data Using Tensors
III-COR:协作研究:使用张量挖掘生物医学和网络数据
- 批准号:
0705359 - 财政年份:2007
- 资助金额:
$ 89.49万 - 项目类别:
Standard Grant
Collaborative Research: NETS-NBD: RIDR: Towards Robust Inter-Domain Routing: Measurements, Models, and Deployable Tools
协作研究:NETS-NBD:RIDR:迈向稳健的域间路由:测量、模型和可部署工具
- 批准号:
0721736 - 财政年份:2007
- 资助金额:
$ 89.49万 - 项目类别:
Continuing Grant
Finding Patterns and Anomalies in Large Time-Evolving Graphs
在大型时间演化图中查找模式和异常
- 批准号:
0534205 - 财政年份:2006
- 资助金额:
$ 89.49万 - 项目类别:
Standard Grant
ITR Collaborative Research: Indexing, Retrieval, and Use of Large Motion Databases
ITR 协作研究:大型运动数据库的索引、检索和使用
- 批准号:
0326322 - 财政年份:2004
- 资助金额:
$ 89.49万 - 项目类别:
Continuing Grant
相似国自然基金
大规模网络数据中邻接矩阵特征根与特征向量的研究
- 批准号:12371278
- 批准年份:2023
- 资助金额:43.5 万元
- 项目类别:面上项目
非凸随机优化在大规模学习任务中的关键参数探究
- 批准号:62302325
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
大规模检验中的经验贝叶斯方法
- 批准号:12371282
- 批准年份:2023
- 资助金额:44.00 万元
- 项目类别:面上项目
面向超级计算机的改进粒子群算法在大规模WSN中的应用研究
- 批准号:62372495
- 批准年份:2023
- 资助金额:50.00 万元
- 项目类别:面上项目
新型电力系统中可再生能源大规模利用的建模及激励机制研究
- 批准号:72304114
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
BIGDATA: Mid-Scale: ESCE: DCM: Collaborative Research: DataBridge - A Sociometric System for Long-Tail Science Data Collections
BIGDATA:中型:ESCE:DCM:协作研究:DataBridge - 长尾科学数据收集的社会计量系统
- 批准号:
1560625 - 财政年份:2015
- 资助金额:
$ 89.49万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale: ESCE: Collaborative Research: Discovery and Social Analytics for Large-Scale Scientific Literature
大数据:中等规模:ESCE:协作研究:大规模科学文献的发现和社会分析
- 批准号:
1502780 - 财政年份:2014
- 资助金额:
$ 89.49万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale DCM: DA: ESCE: Discovering Molecular Processes
BIGDATA:中型 DCM:DA:ESCE:发现分子过程
- 批准号:
8840914 - 财政年份:2013
- 资助金额:
$ 89.49万 - 项目类别:
BIGDATA: Mid-Scale: DCM: A Formal Foundation for Big Data Management
BIGDATA:中型:DCM:大数据管理的正式基础
- 批准号:
1247469 - 财政年份:2013
- 资助金额:
$ 89.49万 - 项目类别:
Continuing Grant
BIGDATA: Mid-Scale: DCM: Collaborative Research: Eliminating the Data Ingestion Bottleneck in Big Data Applications
BIGDATA:中型:DCM:协作研究:消除大数据应用中的数据摄取瓶颈
- 批准号:
1247726 - 财政年份:2013
- 资助金额:
$ 89.49万 - 项目类别:
Standard Grant