DC: Large: Collaborative Research: Mining a Million Scanned Books: Linguistic and Structure Analysis, Fast Expanded Search, and Improved OCR
DC:大型:协作研究:挖掘一百万本扫描书籍:语言和结构分析、快速扩展搜索和改进的 OCR
基本信息
- 批准号:0910165
- 负责人:
- 金额:$ 28.13万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2009
- 资助国家:美国
- 起止时间:2009-10-01 至 2014-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The Center for Intelligent Information Retrieval at UMass Amherst, the Perseus Digital Library Project at Tufts, and the Internet Archive are investigating large-scale information extraction and retrieval technologies for digitized book collections. To provide effective analysis and search for scholars and the general public, and to handle the diversity and scale of these collections, this project focuses on improvements in seven interlocking technologies: improved OCR accuracy through word spotting, creating probabilistic models using joint distributions of features, and building topic-specific language models across documents; structural metadata extraction, to mine headers, chapters, tables of contents, and indices; linguistic analysis and information extraction, to perform syntactic analysis and entity extraction on noisy OCR output; inferred document relational structure, to mine citations, quotations, translations, and paraphrases; latent topic modeling through time, to improve language modeling for OCR and retrieval, and to track the spread of ideas across periods and genres; query expansion for relevance models, to improve relevance in information retrieval by offline pre-processing of document comparisons; and interfaces for exploratory data analysis, to provide users of the document collection with efficient tools to update complex models of important entities, events, topics, and linguistic features. When applied across large corpora, these technologies reinforce each other: improved topic modeling enables more targeted language models for OCR; extracting structural metadata improves citation analysis; and entity extraction improves topic modeling and query expansion.The testbed for this project is the growing corpus of over one million open-access books from the Internet Archive.
麻省大学阿默斯特分校的智能信息检索中心、塔夫茨大学的珀尔修斯数字图书馆项目和互联网档案馆正在研究数字化图书收藏的大规模信息提取和检索技术。为了为学者和公众提供有效的分析和搜索,并处理这些馆藏的多样性和规模,该项目重点改进七种连锁技术:通过单词识别提高 OCR 准确性、使用特征联合分布创建概率模型、跨文档构建特定于主题的语言模型;结构元数据提取,挖掘标题、章节、目录和索引;语言分析和信息提取,对噪声 OCR 输出进行句法分析和实体提取;推断文档关系结构,挖掘引文、引用、翻译和释义;随着时间的推移进行潜在主题建模,以改进 OCR 和检索的语言建模,并跟踪跨时期和流派的思想传播;相关性模型的查询扩展,通过文档比较的离线预处理来提高信息检索的相关性;和探索性数据分析的接口,为文档集合的用户提供有效的工具来更新重要实体、事件、主题和语言特征的复杂模型。当应用于大型语料库时,这些技术会相互加强:改进的主题建模为 OCR 提供了更有针对性的语言模型;提取结构元数据改进引文分析;实体提取改进了主题建模和查询扩展。该项目的测试平台是来自互联网档案馆的超过一百万个开放获取书籍的不断增长的语料库。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Gregory Crane其他文献
Premier League academy soccer players’ experiences of competing in a tournament bio-banded for biological maturation
英超联赛学院足球运动员参加生物带生物成熟锦标赛的经历
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
S. Cumming;Daniel J. Brown;Siobhan B. Mitchell;James Bunce;Daniel E. Hunt;C. Hedges;Gregory Crane;A. Gross;Sam Scott;Ed Franklin;Dave Breakspear;Luke Dennison;Paul White;Andrew Cain;J. Eisenmann;R. Malina - 通讯作者:
R. Malina
Gregory Crane的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Gregory Crane', 18)}}的其他基金
New Horizons in the Use of Historical Linguistic and Archaeological Data: Workshops in China and Germany
历史语言学和考古数据使用的新视野:中国和德国的研讨会
- 批准号:
1048561 - 财政年份:2010
- 资助金额:
$ 28.13万 - 项目类别:
Standard Grant
Automatically Building a Latin Treebank
自动构建拉丁树库
- 批准号:
0616521 - 财政年份:2006
- 资助金额:
$ 28.13万 - 项目类别:
Standard Grant
DLI-Phase 2: A Digital Library for the Humanities
DLI-第 2 阶段:人文数字图书馆
- 批准号:
9817484 - 财政年份:1999
- 资助金额:
$ 28.13万 - 项目类别:
Continuing Grant
Workshop on Electronic Publishing on the History of Science, to be held in Cambridge, MA, December 6-7, 1997
科学史电子出版研讨会,将于 1997 年 12 月 6-7 日在马萨诸塞州剑桥举行
- 批准号:
9726177 - 财政年份:1997
- 资助金额:
$ 28.13万 - 项目类别:
Standard Grant
A Multimedia Database Model for STS
STS多媒体数据库模型
- 批准号:
9321296 - 财政年份:1994
- 资助金额:
$ 28.13万 - 项目类别:
Continuing Grant
"Electronic Tools for Research in the History of Science: AnExploratory Study"
“科学史研究的电子工具:一项探索性研究”
- 批准号:
9302806 - 财政年份:1993
- 资助金额:
$ 28.13万 - 项目类别:
Standard Grant
相似国自然基金
基于可变惯容调谐质量阻尼器的大跨度桥梁多模态涡振半主动控制方法研究
- 批准号:52378147
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
面向要素流动的城市群居民活动空间边界识别、机理与测度研究:以粤港澳大湾区为例
- 批准号:42371202
- 批准年份:2023
- 资助金额:46 万元
- 项目类别:面上项目
苯并环辛烷类大环对质膜外表面磷脂酰丝氨酸的选择性识别及其体外的应用研究
- 批准号:22301046
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
区域出口产品升级的时空格局及机制研究——以粤港澳大湾区为例
- 批准号:42301182
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
高光产额、快衰减、大尺寸Cs3Cu2I5:Mn晶体的水溶液法生长研究
- 批准号:62305193
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Collaborative Research: Large-Signal Stability Analysis and Enhancement of Converter-Dominated DC Microgrid
合作研究:变流器主导的直流微电网的大信号稳定性分析与增强
- 批准号:
2034812 - 财政年份:2020
- 资助金额:
$ 28.13万 - 项目类别:
Standard Grant
Collaborative Research: Large-Signal Stability Analysis and Enhancement of Converter-Dominated DC Microgrid
合作研究:变流器主导的直流微电网的大信号稳定性分析与增强
- 批准号:
2034938 - 财政年份:2020
- 资助金额:
$ 28.13万 - 项目类别:
Standard Grant
DC: Large: Collaborative Research: Mining a Million Scanned Books: Linguistic and Structure Analysis, Fast Expanded Search, and Improved OCR
DC:大型:协作研究:挖掘一百万本扫描书籍:语言和结构分析、快速扩展搜索和改进的 OCR
- 批准号:
0911018 - 财政年份:2009
- 资助金额:
$ 28.13万 - 项目类别:
Continuing Grant
DC: Large: Collaborative Research: ASTERIX: A Highly Scalable Parallel Platform for Semistructured Data Management and Analysis
DC:大型:协作研究:ASTERIX:用于半结构化数据管理和分析的高度可扩展并行平台
- 批准号:
0910820 - 财政年份:2009
- 资助金额:
$ 28.13万 - 项目类别:
Standard Grant
DC: Large: Collaborative Research: ASTERIX: A Highly Scalable Parallel Platform for Semistructured Data Management and Analysis
DC:大型:协作研究:ASTERIX:用于半结构化数据管理和分析的高度可扩展并行平台
- 批准号:
0910859 - 财政年份:2009
- 资助金额:
$ 28.13万 - 项目类别:
Standard Grant