CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
基本信息
- 批准号:1823292
- 负责人:
- 金额:$ 23万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2018
- 资助国家:美国
- 起止时间:2018-08-01 至 2018-10-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Access to the scientific and scholarly literature has changed radically in recent decades. Increasingly researchers and scholars make their publications freely available on the Web. Taking advantage of this opportunity, new scientific search engine tools have been developed such as Google Scholar, Semantic Scholar, and CiteSeer, now CiteSeerX. CiteSeerX has become one of the most comprehensive and widely-used online public resources for the Computer and Information Science and Engineering (CISE) research community. Millions of CiteSeerX Portable Document Format (PDF) documents are indexed by Google. CiteSeerX is unique among digital library search engines. It is open access, most all of its documents are harvested from the public Web, and users have full-text access to all documents searchable on its website. Moreover, it provides all automatically extracted metadata and citation context via an Open Archive Initiative (OAI) metadata service interface and bulk downloads on a public cloud - all under a Creative Commons license. This service is usually not available from other scholarly search engines. CiteSeerX performs automatic extraction and indexing of tables (in production), figures (developed)}, and algorithms (developed), capabilities rarely seen in other scholarly search engines. CiteSeerX provides its open source software and architecture on GitHub. At this time none of the other above-mentioned systems release their digital library software. Utilizing the established CiteSeerX infrastructure, this proposal aims to create a sustainable CiteSeerX system with new data resources and a much larger data collection. We will develop a new system that runs with low operation overhead, without a single point of failure, and that provides quality and enriched data and metadata in portable formats that will be available through accessible user interfaces. We will ingest all freely accessible scientific documents on the Web, currently estimated to be 30 million. CiteSeerX will make available high-quality metadata through an accessible Web User Interface, Application Programming Interface, and data dumps. SeerSuite, the platform on which CiteSeerX is built, will be refactored so as to be an easily deployable and configurable scholarly digital library framework. It will be built on commercial grade open source software. In addition, we will provide searchable semantic metadata, such as key phrases and disambiguated author names, and non-textual content such as data from figures, tables, algorithms, and equations. For long-term sustainability we will explore different monetization models. The result will be a refactored digital library search engine that provides stable, usable, and reliable data services on multiple types of scientific documents built on a portable, maintainable, and self-contained framework that can be deployed for other research document digital collections. Source code will be hosted at https://github.com/SeerLabs. System development and related research will be published in relevant venues and be made publicly available.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
近几十年来,科学和学术文献的获取发生了根本性的变化。越来越多的研究人员和学者在网络上免费提供他们的出版物。利用这个机会,新的科学搜索引擎工具被开发出来,例如 Google Scholar、Semantic Scholar 和 CiteSeer(现在的 CiteSeerX)。 CiteSeerX 已成为计算机与信息科学与工程 (CISE) 研究界最全面、使用最广泛的在线公共资源之一。 Google 为数百万个 CiteSeerX 便携式文档格式 (PDF) 文档编制了索引。 CiteSeerX 在数字图书馆搜索引擎中是独一无二的。它是开放获取的,其大部分文档都是从公共网络获取的,用户可以全文访问其网站上可搜索的所有文档。此外,它还通过开放档案计划 (OAI) 元数据服务接口提供所有自动提取的元数据和引文上下文,并在公共云上批量下载 - 所有这些都在知识共享许可下。 其他学术搜索引擎通常无法提供此服务。 CiteSeerX 执行表格(生产中)、图表(已开发)}和算法(已开发)的自动提取和索引,这些功能在其他学术搜索引擎中很少见。 CiteSeerX 在 GitHub 上提供其开源软件和架构。目前上述其他系统都没有发布其数字图书馆软件。该提案旨在利用已建立的 CiteSeerX 基础设施,创建一个具有新数据资源和更大数据收集的可持续 CiteSeerX 系统。 我们将开发一个新系统,该系统运行成本低,无单点故障,并以可移植格式提供优质且丰富的数据和元数据,这些数据和元数据可通过可访问的用户界面获得。我们将收录网络上所有可免费访问的科学文献,目前估计有 3000 万份。 CiteSeerX 将通过可访问的 Web 用户界面、应用程序编程接口和数据转储提供高质量的元数据。 CiteSeerX 构建的平台 SeerSuite 将被重构,成为一个易于部署和配置的学术数字图书馆框架。它将基于商业级开源软件构建。 此外,我们将提供可搜索的语义元数据,例如关键短语和消除歧义的作者姓名,以及非文本内容,例如来自图形、表格、算法和方程的数据。为了长期可持续发展,我们将探索不同的货币化模式。其结果将是一个重构的数字图书馆搜索引擎,它为多种类型的科学文献提供稳定、可用和可靠的数据服务,该服务建立在可移植、可维护和独立的框架上,可部署用于其他研究文献数字馆藏。源代码将托管在 https://github.com/SeerLabs。系统开发和相关研究将在相关场所发表并公开。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Cornelia Caragea其他文献
Defining resilience analytics for interdependent cyber-physical-social networks
定义相互依赖的网络-物理-社交网络的弹性分析
- DOI:
10.1080/23789689.2017.1294859 - 发表时间:
2017-03-02 - 期刊:
- 影响因子:5.9
- 作者:
K. Barker;J. Lambert;C. Zobel;Andrea H. Tapia;J. Ramírez;Laura A. Albert;Charles D. Nicholson;Cornelia Caragea - 通讯作者:
Cornelia Caragea
Identifying Medical Self-Disclosure in Online Communities
识别在线社区中的医疗自我披露
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Mohammad Valizadeh;Pardis Ranjbar;Cornelia Caragea;Natalie Parde - 通讯作者:
Natalie Parde
COVIDSeer: Extending the CORD-19 Dataset
COVIDSeer:扩展 CORD-19 数据集
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
Shaurya Rohatgi;Zeba Karishma;Jason Chhay;Sai Raghav Reddy Keesara;Jian Wu;Cornelia Caragea;C. Lee Giles - 通讯作者:
C. Lee Giles
Exploring Abstract Concepts for Image Privacy Prediction in Social Networks (Student Abstract)
探索社交网络中图像隐私预测的抽象概念(学生摘要)
- DOI:
10.1609/aaai.v34i10.7164 - 发表时间:
2020-04-03 - 期刊:
- 影响因子:0
- 作者:
Gabriele Galfré;Cornelia Caragea - 通讯作者:
Cornelia Caragea
Improving Researcher Homepage Classification with Unlabeled Data
使用未标记数据改进研究人员主页分类
- DOI:
10.1145/2767135 - 发表时间:
2015-10-26 - 期刊:
- 影响因子:0
- 作者:
Sujatha Das Gollapalli;Cornelia Caragea;P. Mitra;C. Lee Giles - 通讯作者:
C. Lee Giles
Cornelia Caragea的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Cornelia Caragea', 18)}}的其他基金
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
- 批准号:
1853919 - 财政年份:2018
- 资助金额:
$ 23万 - 项目类别:
Standard Grant
BIGDATA: IA: Collaborative Research: Domain Adaptation Approaches for Classifying Crisis Related Data on Social Media
大数据:IA:协作研究:社交媒体上危机相关数据分类的领域适应方法
- 批准号:
1741353 - 财政年份:2018
- 资助金额:
$ 23万 - 项目类别:
Standard Grant
TWC: Small: Collaborative: Towards Privacy Preserving Online Image Sharing
TWC:小型:协作:实现隐私保护在线图像共享
- 批准号:
1903714 - 财政年份:2018
- 资助金额:
$ 23万 - 项目类别:
Standard Grant
CHS: Small: Collaborative Research: Automating Relevance and Trust Detection in Social Media Data for Emergency Response
CHS:小型:协作研究:自动化社交媒体数据中的相关性和信任检测以进行紧急响应
- 批准号:
1903963 - 财政年份:2018
- 资助金额:
$ 23万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: Keyphrase Extraction in Document Networks
III:小:协作研究:文档网络中的关键词提取
- 批准号:
1813571 - 财政年份:2017
- 资助金额:
$ 23万 - 项目类别:
Continuing Grant
CHS: Small: Collaborative Research: Automating Relevance and Trust Detection in Social Media Data for Emergency Response
CHS:小型:协作研究:自动化社交媒体数据中的相关性和信任检测以进行紧急响应
- 批准号:
1814271 - 财政年份:2017
- 资助金额:
$ 23万 - 项目类别:
Standard Grant
TWC: Small: Collaborative: Towards Privacy Preserving Online Image Sharing
TWC:小型:协作:实现隐私保护在线图像共享
- 批准号:
1814255 - 财政年份:2017
- 资助金额:
$ 23万 - 项目类别:
Standard Grant
BIGDATA: IA: Collaborative Research: Domain Adaptation Approaches for Classifying Crisis Related Data on Social Media
大数据:IA:协作研究:社交媒体上危机相关数据分类的领域适应方法
- 批准号:
1802284 - 财政年份:2017
- 资助金额:
$ 23万 - 项目类别:
Standard Grant
CAREER: From Data to Knowledge: Extracting and Utilizing Concept Graphs in Online Environments
职业:从数据到知识:在线环境中提取和利用概念图
- 批准号:
1802358 - 财政年份:2017
- 资助金额:
$ 23万 - 项目类别:
Continuing Grant
CAREER: From Data to Knowledge: Extracting and Utilizing Concept Graphs in Online Environments
职业:从数据到知识:在线环境中提取和利用概念图
- 批准号:
1652674 - 财政年份:2017
- 资助金额:
$ 23万 - 项目类别:
Continuing Grant
相似国自然基金
基于“免疫-神经”网络探讨眼针活化CI/RI大鼠MC靶向H3R调节“免疫监视”的抗炎机制
- 批准号:82374375
- 批准年份:2023
- 资助金额:51 万元
- 项目类别:面上项目
ci-Eln促进亲本基因Eln介导的缺氧肺动脉平滑肌细胞增殖的机制研究
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
森林垂直分层LAI和CI时空变异特征、LiDAR遥感反演与验证研究
- 批准号:
- 批准年份:2021
- 资助金额:59 万元
- 项目类别:面上项目
通过单细胞转录组测序揭示Wolbachia诱导果蝇CI的分子机制
- 批准号:32170497
- 批准年份:2021
- 资助金额:58 万元
- 项目类别:面上项目
近邻星系中[CI]线作为新分子气体质量探针的观测研究
- 批准号:
- 批准年份:2020
- 资助金额:24 万元
- 项目类别:青年科学基金项目
相似海外基金
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
- 批准号:
1853919 - 财政年份:2018
- 资助金额:
$ 23万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term
CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源
- 批准号:
1822975 - 财政年份:2018
- 资助金额:
$ 23万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Racket on Alternative Platforms
CRI:CI-SUSTAIN:替代平台上的喧嚣
- 批准号:
1823244 - 财政年份:2018
- 资助金额:
$ 23万 - 项目类别:
Continuing Grant
CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term
CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源
- 批准号:
1822986 - 财政年份:2018
- 资助金额:
$ 23万 - 项目类别:
Standard Grant
CRI:CI:SUSTAIN: Next-Generation, Sustainable Infrastructure for the RF-Powered Computing Community
CRI:CI:SUSTAIN:射频驱动计算社区的下一代可持续基础设施
- 批准号:
1823148 - 财政年份:2018
- 资助金额:
$ 23万 - 项目类别:
Standard Grant