SBIR Phase I: Geographic Information Retrieval for Arabic

SBIR 第一阶段:阿拉伯语地理信息检索

基本信息

  • 批准号:
    0611116
  • 负责人:
  • 金额:
    $ 9.99万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2006
  • 资助国家:
    美国
  • 起止时间:
    2006-07-01 至 2006-12-31
  • 项目状态:
    已结题

项目摘要

This SBIR Phase I research project by MetaCarta proposes to introduce a novel annotation technique, parallel bootstrapping, to take advantage of the existing data sets in creating high quality training material for toponym extraction and resolution. Information Retrieval (IR) systems that can deal with Arabic already exist, but perform no Geographic Information Retrieval (GIR). As the experience of MetaCarta's users shows, it is practically impossible to retrofit standard keyword-based IR systems to perform GIR at a high level, so the only way to achieve Arabic GIR capability is to start with a GIR system. The availability of a high quality English GIR system makes it possible to address the greatest bottleneck of machine learning projects, the lack of manually truthed training data, by an innovative parallel bootstrap technique. Much of disambiguation, and in general, the extraction of semantic content from text, is still performed by rule-based systems that summarize expert knowledge of a domain. In contrast, MetaCarta employs machine-learning techniques that combine Hidden Markov and Maximum Entropy methods. For Arabic, we propose to restrict the rule-based component to morphological analysis, with later stages, in particular the extraction and disambiguation of toponyms to be performed by systems trained on truthed Arabic text. While plain (untruthed) Arabic text is now available in large quantities, see in particular the Arabic Gigaword corpus produced by the Linguistic Data Consortium (LDC), the amount of tagged material is considerably less, and the detail truth values required for toponym extraction and disambiguation are extremely labor-intensive to create by manual annotation. MetaCarta will use as input the LDC 2004T17 and T18 parallel corpora, running the English side through the existing MetaCarta system to produce the in-depth toponym annotation, and projecting back this annotation on the Arabic side.This technology has broad appeal to customers that have an interest in extending GIR to Arabic documents. Representative customers are highly interested in activities restricted to narrow geographic confines, and many of the documents providing information about Middle Eastern areas of key strategic importance are available only in Arabic. Deploying Arabic GIR would also enable the analysts to more rapidly focus on the relevant documents.
Metacarta的SBIR I期研究项目提议引入一种新颖的注释技术,并行引导程序,以利用现有的数据集创建高质量的培训材料,以获得最高的提取和分辨率。可以处理阿拉伯语的信息检索系统已经存在,但没有执行地理信息检索(GIR)。正如Metacarta用户所表明的那样,基于标准关键字的IR系统几乎不可能在高级别上执行GIR,因此实现阿拉伯GIR能力的唯一方法是从GIR系统开始。高质量的英语GIR系统的可用性使得通过创新的平行引导技术来解决机器学习项目最大的瓶颈,缺乏手动真实的培训数据。大部分歧义,通常,从文本中提取语义内容,仍然是由基于规则的系统来执行的,这些系统总结了对域的专家知识。相比之下,Metacarta采用了将隐藏的马尔可夫和最大熵方法结合在一起的机器学习技术。对于阿拉伯语,我们建议将基于规则的成分限制为形态学分析,尤其是在以后的阶段,特别是由对真实的阿拉伯文本培训的系统进行的提取和歧义。虽然现在大量可提供普通(未经修复的)阿拉伯文本,但尤其是由语言数据联盟(LDC)产生的阿拉伯戈格沃德语料库(LDC),但标记材料的数量要少得多,而详细的真实价值是由人为劳动的劳动力大量提取和dismigation所需的细节真实价值。 Metacarta将用作LDC 2004T17和T18平行语料库的输入,并通过现有的Metacarta系统运行英语方面,以产生深入的顶级注释,并将此注释放在阿拉伯语方面。这项技术对将GIR扩展到Arabic Documents感兴趣的客户具有广泛的吸引力。代表性客户对仅限于狭窄地理限制的活动非常感兴趣,并且提供有关中东地区重要战略重要性的信息的许多文件仅在阿拉伯语中可用。部署阿拉伯语GIR还将使分析师更快地关注相关文件。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Andras Kornai其他文献

Andras Kornai的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

高层钢结构建模-优化-深化的跨阶段智能设计方法
  • 批准号:
    52308142
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
游戏化mHealth干预模式下精神障碍出院患者自杀风险管理策略的实施科学研究——基于多阶段优化策略
  • 批准号:
    72374095
  • 批准年份:
    2023
  • 资助金额:
    40 万元
  • 项目类别:
    面上项目
非洲爪蟾IV型干扰素IFN-upsilon在不同发育阶段的抗病毒功能研究
  • 批准号:
    32303043
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
壳斗科植物传播前阶段种子捕食的地理格局及其驱动机制
  • 批准号:
    32371612
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
计及海量多元逆变资源下垂参数动态优化的配电网多阶段协调运行研究
  • 批准号:
    52307091
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

SBIR Phase II: Algorithms and Visualization Techniques for the Detection of Geographic Aberrations in Crime (GIS)
SBIR 第二阶段:犯罪地理畸变检测算法和可视化技术 (GIS)
  • 批准号:
    0750507
  • 财政年份:
    2008
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase I: Algorithms and Visualization Techniques for the Detection of Geographic Aberrations in Crime (GIS)
SBIR 第一阶段:犯罪地理畸变检测算法和可视化技术 (GIS)
  • 批准号:
    0637589
  • 财政年份:
    2007
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase I: iPointer - A Device for Directly Querying Geographic Objects in the Field
SBIR 第一阶段:iPointer - 直接查询野外地理对象的设备
  • 批准号:
    0340041
  • 财政年份:
    2004
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase I: Temporal Extensions to a Commercial Geographic Information System
SBIR 第一阶段:商业地理信息系统的时间扩展
  • 批准号:
    0232188
  • 财政年份:
    2003
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase I: Geographic Information Systems (GIS)-Based Decision Support Management Application to Optimize Site-Specific Environmental Stewardship
SBIR 第一阶段:基于地理信息系统 (GIS) 的决策支持管理应用程序,以优化特定地点的环境管理
  • 批准号:
    0060575
  • 财政年份:
    2001
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了