EAGER: Statistical Modeling of Linguistic Change in Open Source Software

EAGER:开源软件语言变化的统计建模

基本信息

  • 批准号:
    1821525
  • 负责人:
  • 金额:
    $ 6.31万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-05-01 至 2021-04-30
  • 项目状态:
    已结题

项目摘要

The project explores a theory of open source software (OSS) evolution based on statistical natural language processing techniques. Based on the emerging recognition that software code is, in many ways, as "natural" as natural language (e.g., English), there is a trend to apply statistical models for software development tasks such as code analysis, comprehension, and programmer support. This grant extends the "naturalness of code" theory by studying how the code lexicon evolves in open source software as different developers work on a software project and features are added, modified, deleted. The goal is to learn the extent to which the evolution of a developer's lexicon follows the laws of natural language evolution.To create the needed demonstration, large datasets of code lexicons are being collected from a large number of OSS projects and their revisions (on GitHub and SourceForge). The main constructs of the frequency model of natural language evolution will be applied to track and identify the main patterns of language changes (e.g., birth, propagation, death of terms in the lexicon) throughout OSS projects life cycle. Part of the challenge is to better understand how events that instigate code evolution, such as maintenance activities and team formation, are fundamentally different from the events that instigate change in natural language, such as war and migration. The research should lead to new ways to predict software project outcomes and to improve software productivity and quality. The project will make available the data, tools, and algorithms that will be produced by the project, which will support future work to understand the dynamics of code evolution in open source software ecosystems.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
该项目探讨了一种基于统计自然语言处理技术的开源软件(OSS)演化理论。基于新出现的认识,即软件代码在许多方面都像自然语言(例如英语)一样,将统计模型应用于软件开发任务(例如代码分析,理解和程序员支持)的趋势。该赠款通过研究代码词典在开源软件中如何发展的“代码的自然性”理论扩展了“代码的自然性”理论,并且随着不同的开发人员在软件项目上工作,并添加,修改,删除了功能。 目的是了解开发商词典遵循自然语言进化定律的演变的程度。为了创建所需的演示,正在从大量的OSS项目及其修订中(在Github和Sourceforge上)收集大量代码词典数据集。自然语言演化的频率模型的主要构造将用于跟踪和确定语言变化的主要模式(例如,出生,传播,词典中的术语死亡)整个OSS项目生命周期。挑战的一部分是更好地了解启动代码演变的事件(例如维护活动和团队形成)与促进自然语言变化(例如战争和移民)的事件的根本不同。该研究应导致预测软件项目成果并提高软件生产率和质量的新方法。该项目将提供该项目将生产的数据,工具和算法,该算法将支持未来的工作,以了解开源软件生态系统中代码演变的动态。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的知识分子和更广泛影响的审查审查标准来通过评估来通过评估来支持的。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Linguistic Documentation of Software History
软件历史的语言文档
On Combining IR Methods to Improve Bug localization
Linguistic Change in Open Source Software
开源软件的语言变化
Using GitHub in large software engineering classes. An exploratory case study
在大型软件工程课程中使用 GitHub。
  • DOI:
    10.1080/08993408.2019.1696168
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    2.7
  • 作者:
    Tushev, Miroslav;Williams, Grant;Mahmoud, Anas
  • 通讯作者:
    Mahmoud, Anas
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Anas Mahmoud其他文献

Rhabdomyosarcoma in Adults: De Novo or Conversion From Non-seminomas?
成人横纹肌肉瘤:新发还是非精原细胞瘤转化?
  • DOI:
    10.7759/cureus.55449
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M. Ghrewati;Anas Mahmoud;Tala Beliani;Mehandar Kumar
  • 通讯作者:
    Mehandar Kumar
On enhancing memory forensics with FAME: Framework for advanced monitoring and execution
使用 FAME 增强内存取证:高级监控和执行框架
An information theoretic approach for extracting and tracing non-functional requirements
VANETs Positioning in Urban Environments: A Novel Cooperative Approach
VANET 在城市环境中的定位:一种新颖的合作方法
Generating Rate Features for Mobile Applications
为移动应用程序生成速率功能

Anas Mahmoud的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Anas Mahmoud', 18)}}的其他基金

SCC-PG: Utilizing Sharing Economy to Foster Social Capital and Economic Growth in Baton Rouge
SCC-PG:利用共享经济促进巴吞鲁日的社会资本和经济增长
  • 批准号:
    1951411
  • 财政年份:
    2020
  • 资助金额:
    $ 6.31万
  • 项目类别:
    Standard Grant

相似国自然基金

统计力学中的数学物理方程
  • 批准号:
    12371218
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
半监督下最优个性化治疗方案的统计推断
  • 批准号:
    12301337
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
脉冲二氧化碳电催化体系的非平衡统计动力学
  • 批准号:
    22373090
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
环境混合污染物的健康效应统计分析方法研究
  • 批准号:
    82373690
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
大型复杂流数据的若干统计推断问题
  • 批准号:
    12371274
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目

相似海外基金

Uncovering Mechanisms of Racial Inequalities in ADRD: Psychosocial Risk and Resilience Factors for White Matter Integrity
揭示 ADRD 中种族不平等的机制:心理社会风险和白质完整性的弹性因素
  • 批准号:
    10676358
  • 财政年份:
    2024
  • 资助金额:
    $ 6.31万
  • 项目类别:
The Influence of Lifetime Occupational Experience on Cognitive Trajectories Among Mexican Older Adults
终生职业经历对墨西哥老年人认知轨迹的影响
  • 批准号:
    10748606
  • 财政年份:
    2024
  • 资助金额:
    $ 6.31万
  • 项目类别:
Time series clustering to identify and translate time-varying multipollutant exposures for health studies
时间序列聚类可识别和转化随时间变化的多污染物暴露以进行健康研究
  • 批准号:
    10749341
  • 财政年份:
    2024
  • 资助金额:
    $ 6.31万
  • 项目类别:
Comparison of Machine Learning and Conventional Statistical Modeling for Predicting Readmission Following Acute Heart Failure Hospitalization
机器学习与传统统计模型预测急性心力衰竭住院后再入院的比较
  • 批准号:
    495410
  • 财政年份:
    2023
  • 资助金额:
    $ 6.31万
  • 项目类别:
Fluency from Flesh to Filament: Collation, Representation, and Analysis of Multi-Scale Neuroimaging data to Characterize and Diagnose Alzheimer's Disease
从肉体到细丝的流畅性:多尺度神经影像数据的整理、表示和分析,以表征和诊断阿尔茨海默病
  • 批准号:
    10462257
  • 财政年份:
    2023
  • 资助金额:
    $ 6.31万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了