EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Efficient Human-in-the-Loop Redaction of Language Development Corpora
EAGER:DCL:SaTC:实现跨学科协作:语言开发语料库的高效人机交互编辑
基本信息
- 批准号:2210193
- 负责人:
- 金额:$ 30万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-07-01 至 2024-06-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
At great effort and expense, and with the cooperation of hundreds of parents, teachers, and children, researchers have collected conversation transcripts to study topics like children's language development. The data most useful for science are longitudinal and naturalistic, such as data collected periodically over time in children's homes. Unfortunately, the longitudinal, naturalistic corpora most likely to advance knowledge may contain information that renders participants identifiable. For this reason, naturalistic corpora are rarely shared with other researchers, hindering science. Sharing requires careful redaction--the removal of potentially identifying information. Currently, naturalistic corpora are often too large for manual redaction, and current automated tools both miss critical redactions and over-redact important information. To enable such data to be shared, this project seeks to develop novel computational methods for redaction.This project's aim is to develop initially automated, human-in-the-loop redaction of identifying information in unstructured text data. First, to better understand key challenges around what aspects of transcripts make participants identifiable, the researchers are conducting interviews with social and behavioral science researchers and members of ethics boards. From these insights, the researchers are developing novel models for predicting what language may need to be redacted and they are designing novel user interactions for leveraging human expertise in redaction decisions. The unique characteristics of conversation transcripts require modeling novel features of language, drawing from natural language processing, psychology, privacy engineering, and linguistics. Because automated methods lack human insights into conversational context for making complex redaction decisions, the researchers are designing user interfaces that summarize how marked language, or tokens, appear longitudinally in transcripts, enabling human coders to quickly make redaction decisions. As a case study, the researchers are applying these techniques to the Language Development Project, a longitudinal corpus of 100 diverse children's development of language. The project is also training students in multidisciplinary research across the computational and social sciences.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
研究人员花费巨大的精力和费用,在数百名家长、老师和孩子的合作下,收集了对话记录,以研究儿童语言发展等主题。对科学最有用的数据是纵向的和自然的,例如随着时间的推移在儿童家里定期收集的数据。不幸的是,最有可能推进知识的纵向自然主义语料库可能包含使参与者可识别的信息。因此,自然主义语料库很少与其他研究人员共享,这阻碍了科学的发展。共享需要仔细编辑——删除潜在的识别信息。目前,自然语料库通常对于手动编辑来说太大,而当前的自动化工具既会错过关键的编辑,又会过度编辑重要信息。为了使此类数据能够共享,该项目寻求开发新颖的编辑计算方法。该项目的目标是开发最初的自动化、人机交互编辑,以识别非结构化文本数据中的信息。首先,为了更好地了解围绕记录的哪些方面使参与者可识别的关键挑战,研究人员正在对社会和行为科学研究人员以及道德委员会成员进行访谈。根据这些见解,研究人员正在开发新的模型来预测可能需要编辑的语言,并设计新颖的用户交互,以利用人类专业知识进行编辑决策。对话记录的独特特征需要对语言的新颖特征进行建模,借鉴自然语言处理、心理学、隐私工程和语言学的知识。由于自动化方法缺乏人类对对话上下文的洞察力,无法做出复杂的编辑决策,因此研究人员正在设计用户界面,总结标记语言或标记在转录本中纵向出现的方式,使人类编码人员能够快速做出编辑决策。作为一个案例研究,研究人员正在将这些技术应用到语言发展项目中,该项目是一个包含 100 个不同儿童语言发展的纵向语料库。该项目还培训学生进行计算和社会科学的多学科研究。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Blase Ur其他文献
Exploring the Usability of Pronounceable Passwords
探索可发音密码的可用性
- DOI:
- 发表时间:
2024-09-14 - 期刊:
- 影响因子:0
- 作者:
S. Lau;Stephen A. Siena;Ashutosh P;ey;ey;S. Sosothikul;L. Cranor;Blase Ur;Richard Shay - 通讯作者:
Richard Shay
Forgotten But Not Gone: Identifying the Need for Longitudinal Data Management in Cloud Storage
被遗忘但并未消失:确定云存储中纵向数据管理的需求
- DOI:
10.1145/3173574.3174117 - 发表时间:
2018-04-21 - 期刊:
- 影响因子:0
- 作者:
Mohammad Taha Khan;Maria Hyun;Chris Kanich;Blase Ur - 通讯作者:
Blase Ur
Why Johnny can't opt out: a usability evaluation of tools to limit online behavioral advertising
为什么约翰尼不能选择退出:限制在线行为广告的工具的可用性评估
- DOI:
10.1145/2207676.2207759 - 发表时间:
2012-05-05 - 期刊:
- 影响因子:0
- 作者:
P. Leon;Blase Ur;Richard Shay;Yang Wang;Rebecca Balebako;L. Cranor - 通讯作者:
L. Cranor
Evidence Humans Provide When Explaining Data-Labeling Decisions
人类在解释数据标签决策时提供的证据
- DOI:
10.1007/978-3-030-29387-1_22 - 发表时间:
2019-09-02 - 期刊:
- 影响因子:0
- 作者:
J. Newman;Bo Wang;Valerie Zhao;Amy Zeng;M. Littman;Blase Ur - 通讯作者:
Blase Ur
What matters to users?: factors that affect users' willingness to share information with online advertisers
对用户来说什么重要?:影响用户与在线广告商共享信息意愿的因素
- DOI:
10.1145/2501604.2501611 - 发表时间:
2013-07-24 - 期刊:
- 影响因子:0
- 作者:
P. Leon;Blase Ur;Yang Wang;Manya Sleeper;Rebecca Balebako;Richard Shay;Lujo Bauer;Mihai Christodorescu;L. Cranor - 通讯作者:
L. Cranor
Blase Ur的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Blase Ur', 18)}}的其他基金
Collaborative Research: Conference: 2024 Aspiring PIs in Secure and Trustworthy Cyberspace
协作研究:会议:2024 年安全可信网络空间中的有抱负的 PI
- 批准号:
2404950 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: SaTC: CORE: Medium: Methods and Tools for Effective, Auditable, and Interpretable Online Ad Transparency
协作研究:SaTC:核心:媒介:有效、可审核和可解释的在线广告透明度的方法和工具
- 批准号:
2149680 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
CAREER: Usable, Data-Driven Transparency and Access for Consumer Privacy
职业:可用、数据驱动的透明度和消费者隐私访问
- 批准号:
2047827 - 财政年份:2021
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
CRII: SaTC: Multi-User Authentication and Access Control in the Internet of Things
CRII:SaTC:物联网中的多用户身份验证和访问控制
- 批准号:
1756011 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
SaTC: CORE: Medium: Collaborative: Enabling Long-Term Security and Privacy through Retrospective Data Management
SaTC:核心:媒介:协作:通过回顾性数据管理实现长期安全和隐私
- 批准号:
1801663 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
FMitF: Collaborative Research: User-Centered Verification and Repair of Trigger-Action Programs
FMITF:协作研究:以用户为中心的触发操作程序验证和修复
- 批准号:
1837120 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
相似国自然基金
番茄抗病毒基因DCL2b受病毒诱导调控的分子机理
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
OH+HCl/DCl↔H2O/HOD+Cl态-态反应的全维微分截面研究
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
RNAi介导的转S1基因大豆对SMV广谱抗性启动机制的解析
- 批准号:31801388
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
套索RNA通过拮抗DCL1复合物抑制植物miRNA产生的分子机制
- 批准号:31671261
- 批准年份:2016
- 资助金额:63.0 万元
- 项目类别:面上项目
拟南芥DCL4介导、不依赖DRB4的新抗病毒RNA沉默分子机制研究
- 批准号:31570145
- 批准年份:2015
- 资助金额:66.0 万元
- 项目类别:面上项目
相似海外基金
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Combatting Disinformation and Racial Bias: A Deep-Learning-Assisted Investigation of Temporal Dynamics of Disinformation
EAGER:DCL:SaTC:实现跨学科合作:打击虚假信息和种族偏见:虚假信息时间动态的深度学习辅助调查
- 批准号:
2210137 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Inoculation vs. education: the role of real time alerts and end-user overconfidence
EAGER:DCL:SaTC:实现跨学科协作:接种与教育:实时警报和最终用户过度自信的作用
- 批准号:
2210198 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Deplatforming and Online Hate Speech Across the Social Media Ecology
EAGER:DCL:SaTC:实现跨学科合作:社交媒体生态中的去平台化和在线仇恨言论
- 批准号:
2210023 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Using NLP to Identify Suspicious Transactions in Omnichannel Online C2C Marketplaces
EAGER:DCL:SaTC:实现跨学科协作:使用 NLP 识别全渠道在线 C2C 市场中的可疑交易
- 批准号:
2210091 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Space Cybersecurity, Policy, and Risks
EAGER:DCL:SaTC:实现跨学科合作:空间网络安全、政策和风险
- 批准号:
2208458 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant