CAREER: Authorship Analysis in Cross-Domain Settings

职业:跨域设置中的作者分析

基本信息

  • 批准号:
    1462141
  • 负责人:
  • 金额:
    $ 46.96万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2014
  • 资助国家:
    美国
  • 起止时间:
    2014-08-31 至 2019-12-31
  • 项目状态:
    已结题

项目摘要

Authorship Analysis (AA) is the task of extracting characteristics from written documents that can help to determine authorship of a document, generate a profile of the author, or identify cases of plagiarism. AA can be used for historical purposes, to settle disputes over the original creators of a given document, and to build a prosecution case against an online abuser. Most previous work in AA assumes the availability of samples with known authorship that closely match the domain of the documents of interest. A strong assumption like this one limits the applications of AA approaches. This program addresses this key outstanding challenge by designing robust frameworks for scenarios with different cross-domain degrees: cross-topic, cross-genre and cross-modality (text vs. transcribed speech). The project leverages the large amounts of free text available representing each cross-domain setting to learn general lexical and syntactic distributional correspondences. These correspondences are used to map the out-of-domain texts to a representation that is closer to the target domain. Direct contributions of this research include new approaches to extract and embed cross-domain prior knowledge into AA models in the form of distributional trajectories; and a solid understanding of the influence of topic, genre, and modality in the feature engineering process for AA that will also be helpful in other text processing tasks. This research will make direct contributions to the field of forensic linguistics, which is of major relevance for national security.The PI will design an advanced seminar in computational approaches for forensic linguistics and will expand her ongoing educational and outreach activities for underrepresented groups in the STEM disciplines. The PI will integrate opportunities for international visits to key research labs for the graduate students involved in the program that will enrich their training and provide great networking opportunities.
作者身份分析 (AA) 是从书面文档中提取特征的任务,这些特征有助于确定文档的作者身份、生成作者简介或识别抄袭案例。 AA 可用于历史目的、解决有关给定文档的原始创建者的争议,以及对在线滥用者提出起诉。 AA 之前的大多数工作都假设具有已知作者身份的样本的可用性,这些样本与感兴趣的文档的领域密切匹配。像这样的强有力的假设限制了 AA 方法的应用。该计划通过为不同跨领域程度的场景设计强大的框架来解决这一关键的突出挑战:跨主题、跨流派和跨模态(文本与转录语音)。 该项目利用代表每个跨域设置的大量可用文本来学习一般词汇和句法分布对应关系。这些对应关系用于将域外文本映射到更接近目标域的表示。这项研究的直接贡献包括以分布轨迹的形式提取跨领域先验知识并将其嵌入到 AA 模型中的新方法;以及对 AA 特征工程过程中主题、流派和模态影响的深入理解,这也将有助于其他文本处理任务。这项研究将为法庭语言学领域做出直接贡献,该领域与国家安全息息相关。PI 将设计一个法庭语言学计算方法高级研讨会,并将扩大她正在进行的针对 STEM 中代表性不足群体的教育和外展活动学科。 PI 将为参与该项目的研究生提供国际访问主要研究实验室的机会,这将丰富他们的培训并提供良好的交流机会。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Thamar Solorio其他文献

Thamar Solorio的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Thamar Solorio', 18)}}的其他基金

IRES Track I: US-Mexico Collaboration on Multimodal Detection of Objectionable Content in Online Videos in Spanish and English
IRES 轨道 I:美国-墨西哥合作对西班牙语和英语在线视频中的不良内容进行多模式检测
  • 批准号:
    2106892
  • 财政年份:
    2021
  • 资助金额:
    $ 46.96万
  • 项目类别:
    Standard Grant
Workshop on desiderata for a multimodal dataset for objectionable content detection
用于不良内容检测的多模式数据集需求研讨会
  • 批准号:
    2036368
  • 财政年份:
    2020
  • 资助金额:
    $ 46.96万
  • 项目类别:
    Standard Grant
RI: Small: Robust Models for Sequence Labelling in Social Media Data
RI:小型:社交媒体数据中序列标记的稳健模型
  • 批准号:
    1910192
  • 财政年份:
    2019
  • 资助金额:
    $ 46.96万
  • 项目类别:
    Standard Grant
HCC: Small: Collaborative Research: Analysis of Language Samples for Detecting Language Impairment in Monolingual and Bilingual Children
HCC:小型:合作研究:分析语言样本以检测单语和双语儿童的语言障碍
  • 批准号:
    1462143
  • 财政年份:
    2014
  • 资助金额:
    $ 46.96万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1462142
  • 财政年份:
    2014
  • 资助金额:
    $ 46.96万
  • 项目类别:
    Standard Grant
CAREER: Authorship Analysis in Cross-Domain Settings
职业:跨域设置中的作者分析
  • 批准号:
    1350360
  • 财政年份:
    2014
  • 资助金额:
    $ 46.96万
  • 项目类别:
    Continuing Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1205475
  • 财政年份:
    2012
  • 资助金额:
    $ 46.96万
  • 项目类别:
    Standard Grant
ACL-HLT 2011 Student Session
ACL-HLT 2011 学生会议
  • 批准号:
    1102435
  • 财政年份:
    2011
  • 资助金额:
    $ 46.96万
  • 项目类别:
    Standard Grant
Young Investigators in the Americas Workshop
美洲青年研究者研讨会
  • 批准号:
    1008711
  • 财政年份:
    2010
  • 资助金额:
    $ 46.96万
  • 项目类别:
    Standard Grant
HCC: Small: Collaborative Research: Analysis of Language Samples for Detecting Language Impairment in Monolingual and Bilingual Children
HCC:小型:合作研究:分析语言样本以检测单语和双语儿童的语言障碍
  • 批准号:
    1018124
  • 财政年份:
    2010
  • 资助金额:
    $ 46.96万
  • 项目类别:
    Standard Grant

相似国自然基金

基于深度学习与计算语言学的恶意代码作者身份识别研究
  • 批准号:
    61802433
  • 批准年份:
    2018
  • 资助金额:
    16.0 万元
  • 项目类别:
    青年科学基金项目
Web文本的作者身份和属性识别方法研究
  • 批准号:
    61672098
  • 批准年份:
    2016
  • 资助金额:
    16.0 万元
  • 项目类别:
    面上项目

相似海外基金

DNA Damage and Immunogenicity in Ewing Sarcoma
尤文肉瘤中的 DNA 损伤和免疫原性
  • 批准号:
    10360543
  • 财政年份:
    2021
  • 资助金额:
    $ 46.96万
  • 项目类别:
DNA Damage and Immunogenicity in Ewing Sarcoma
尤文肉瘤中的 DNA 损伤和免疫原性
  • 批准号:
    10605340
  • 财政年份:
    2021
  • 资助金额:
    $ 46.96万
  • 项目类别:
DNA Damage and Immunogenicity in Ewing Sarcoma
尤文肉瘤中的 DNA 损伤和免疫原性
  • 批准号:
    10213196
  • 财政年份:
    2021
  • 资助金额:
    $ 46.96万
  • 项目类别:
Children's Exposure to Indoor and Outdoor Air Pollution within the SHEAR Project in Rwanda
卢旺达 SHEAR 项目中儿童接触室内和室外空气污染的情况
  • 批准号:
    10296696
  • 财政年份:
    2021
  • 资助金额:
    $ 46.96万
  • 项目类别:
Children's Exposure to Indoor and Outdoor Air Pollution within the SHEAR Project in Rwanda
卢旺达 SHEAR 项目中儿童接触室内和室外空气污染的情况
  • 批准号:
    10615232
  • 财政年份:
    2021
  • 资助金额:
    $ 46.96万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了