III: Medium: Collaborative Research: DataHub - A Collaborative Dataset Management Platform for Data Science

III:媒介:协作研究:DataHub - 数据科学协作数据集管理平台

基本信息

项目摘要

The rise of the Internet, smart phones, and wireless sensors has resulted in a vast trove of data about all aspects of our lives, from our social interactions to our personal preferences to our vital signs and medical records. Increasingly, "data science" teams want to collaboratively analyze these datasets, to understand trends and to extract actionable business, scientific, or social insights. Unfortunately, while there exist tools to support data analysis, much-needed underlying infrastructure and data management capabilities are missing. To this end, "DataHub", a collaborative platform for cleaning, storing, understanding, sharing, and publishing datasets, will be developed. DataHub will be a publicly accessible platform that will host private user datasets as well as public datasets retrieved from online sources. DataHub will serve as the common substrate for data science, freeing up end users from tedious dataset book-keeping tasks, and instead supporting them in their search for useful insights. DataHub will be deployed on a large scale at MIT; partnerships with organizations and groups from a variety of sectors will be leveraged upon to show benefits for real data scientists and to ensure that the proposed techniques meet real-world big data challenges. The curriculum development part of this project will lead to the training of new data scientists, and the project will also provide opportunities for graduate and undergraduate students to participate in research and learn how to do collaborative research.Unlike most systems that focus on improving performance or on supporting even more sophisticated analyses, DataHub will instead focus on simplifying and automating many fundamental book-keeping operations that are a pre-requisite to data science. Key features of DataHub will include: (1) a flexible, source code control-like versioning system for data, that efficiently branches, merges, and differences datasets; (2) new data ingest, cleaning, and wrangling tools designed to automate data cleaning process; (3) the ability to search for "related" tables and to integrate them into the analysis process; and (4) the ability to selectively share and collaborate on data sets across users and teams. Overall, DataHub will significantly reduce the amount of effort involved on the part of data scientists for preparing, analyzing, sharing, and managing data.For more information, see the project website at: http://data-hub.org
互联网、智能手机和无线传感器的兴起产生了有关我们生活各个方面的大量数据,从我们的社交互动到我们的个人偏好,再到我们的生命体征和医疗记录。 “数据科学”团队越来越希望协作分析这些数据集,了解趋势并提取可操作的商业、科学或社会见解。不幸的是,虽然存在支持数据分析的工具,但缺少急需的底层基础设施和数据管理功能。为此,将开发一个用于清理、存储、理解、共享和发布数据集的协作平台“DataHub”。 DataHub 将是一个可公开访问的平台,将托管私人用户数据集以及从在线资源检索的公共数据集。 DataHub 将作为数据科学的通用基础,将最终用户从繁琐的数据集簿记任务中解放出来,并支持他们寻找有用的见解。 DataHub将在MIT大规模部署;将利用与各个部门的组织和团体的伙伴关系来展示真正的数据科学家的好处,并确保所提出的技术能够满足现实世界的大数据挑战。 该项目的课程开发部分将导致新数据科学家的培训,该项目还将为研究生和本科生提供参与研究并学习如何进行协作研究的机会。与大多数专注于提高性能或为了支持更复杂的分析,DataHub 将专注于简化和自动化许多基本的簿记操作,这是数据科学的先决条件。 DataHub 的主要功能包括:(1)一个灵活的、类似源代码控制的数据版本控制系统,可以有效地分支、合并和差异数据集; (2) 新的数据摄取、清理和整理工具,旨在自动化数据清理过程; (3) 搜索“相关”表格并将其整合到分析过程中的能力; (4) 跨用户和团队有选择地共享和协作数据集的能力。总体而言,DataHub 将显着减少数据科学家准备、分析、共享和管理数据所需的工作量。有关更多信息,请访问该项目网站:http://data-hub.org

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Optimally Leveraging Density and Locality for Exploratory Browsing and Sampling
最佳地利用密度和位置进行探索性浏览和采样
  • DOI:
    10.1145/3209900.3209903
  • 发表时间:
    2018-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kim, Albert;Xu, Liqi;Siddiqui, Tarique;Huang, Silu;Madden, Samuel;Parameswaran, Aditya
  • 通讯作者:
    Parameswaran, Aditya
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Aditya Parameswaran其他文献

MIT Open Access Articles Towards Visualization Recommendation Systems
麻省理工学院面向可视化推荐系统的开放获取文章
  • DOI:
    10.1109/access.2022.3159976
  • 发表时间:
    2024-09-14
  • 期刊:
  • 影响因子:
    3.9
  • 作者:
    Manasi Vartak;Silu Huang;Tarique Siddiqui;Samuel Madden;Aditya Parameswaran
  • 通讯作者:
    Aditya Parameswaran
Automatic email response suggestion for support departments within a university
为大学内的支持部门提供自动电子邮件回复建议
  • DOI:
    10.7287/peerj.preprints.26531v1
  • 发表时间:
    2018-02-17
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Aditya Parameswaran;D. Mishra;Sanchit Bansal;Vinayak Agarwal;Anjali Goyal;A. Sureka
  • 通讯作者:
    A. Sureka

Aditya Parameswaran的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Aditya Parameswaran', 18)}}的其他基金

FW-HTF-R: Human-Machine Teaming for Effective Data Work at Scale: Upskilling Defense Lawyers Working with Police and Court Process Data
FW-HTF-R:大规模有效数据工作的人机协作:提高辩护律师处理警察和法院流程数据的技能
  • 批准号:
    2129008
  • 财政年份:
    2021
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Standard Grant
FW-HTF-R: Human-Machine Teaming for Effective Data Work at Scale: Upskilling Defense Lawyers Working with Police and Court Process Data
FW-HTF-R:大规模有效数据工作的人机协作:提高辩护律师处理警察和法院流程数据的技能
  • 批准号:
    2129008
  • 财政年份:
    2021
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Standard Grant
CAREER: Advancing Open-Ended Crowdsourcing: The Next Frontier in Crowdsourced Data Management
职业:推进开放式众包:众包数据管理的下一个前沿
  • 批准号:
    1940757
  • 财政年份:
    2019
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Continuing Grant
AitF: Collaborative Research: Fast, Accurate, and Practical: Adaptive Sublinear Algorithms for Scalable Visualization
AitF:协作研究:快速、准确和实用:用于可扩展可视化的自适应次线性算法
  • 批准号:
    1940759
  • 财政年份:
    2019
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Standard Grant
AitF: Collaborative Research: Fast, Accurate, and Practical: Adaptive Sublinear Algorithms for Scalable Visualization
AitF:协作研究:快速、准确和实用:用于可扩展可视化的自适应次线性算法
  • 批准号:
    1733878
  • 财政年份:
    2017
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Standard Grant
CAREER: Advancing Open-Ended Crowdsourcing: The Next Frontier in Crowdsourced Data Management
职业:推进开放式众包:众包数据管理的下一个前沿
  • 批准号:
    1652750
  • 财政年份:
    2017
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Continuing Grant

相似国自然基金

基于机器学习和经典电动力学研究中等尺寸金属纳米粒子的量子表面等离激元
  • 批准号:
    22373002
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于挥发性分布和氧化校正的大气半/中等挥发性有机物来源解析方法构建
  • 批准号:
    42377095
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
中等质量黑洞附近的暗物质分布及其IMRI系统引力波回波探测
  • 批准号:
    12365008
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
复合低维拓扑材料中等离激元增强光学响应的研究
  • 批准号:
    12374288
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
中等垂直风切变下非对称型热带气旋快速增强的物理机制研究
  • 批准号:
    42305004
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

III : Medium: Collaborative Research: From Open Data to Open Data Curation
III:媒介:协作研究:从开放数据到开放数据管理
  • 批准号:
    2420691
  • 财政年份:
    2024
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Standard Grant
Collaborative Research: IIS: III: MEDIUM: Learning Protein-ish: Foundational Insight on Protein Language Models for Better Understanding, Democratized Access, and Discovery
协作研究:IIS:III:中等:学习蛋白质:对蛋白质语言模型的基础洞察,以更好地理解、民主化访问和发现
  • 批准号:
    2310114
  • 财政年份:
    2023
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Towards Effective Detection and Mitigation for Shortcut Learning: A Data Modeling Framework
协作研究:III:媒介:针对捷径学习的有效检测和缓解:数据建模框架
  • 批准号:
    2310262
  • 财政年份:
    2023
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: New Machine Learning Empowered Nanoinformatics System for Advancing Nanomaterial Design
合作研究:III:媒介:新的机器学习赋能纳米信息学系统,促进纳米材料设计
  • 批准号:
    2402311
  • 财政年份:
    2023
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Towards Effective Detection and Mitigation for Shortcut Learning: A Data Modeling Framework
协作研究:III:媒介:针对捷径学习的有效检测和缓解:数据建模框架
  • 批准号:
    2310260
  • 财政年份:
    2023
  • 资助金额:
    $ 33.3万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了