喵ID:Xisavh免责声明

A Case Study on the Impact of Similarity Measure on Information Retrieval based Software Engineering Tasks

相似性度量对基于信息检索的软件工程任务影响的案例研究

基本信息

DOI:
--
发表时间:
2018
期刊:
arXiv.org
影响因子:
--
通讯作者:
Baishakhi Ray
中科院分区:
文献类型:
--
作者: Md Masudur Rahman;Saikat Chakraborty;G. Kaiser;Baishakhi Ray研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Information Retrieval (IR) plays a pivotal role in diverse Software Engineering (SE) tasks, e.g., bug localization and triaging, code retrieval, requirements analysis, etc. The choice of similarity measure is the core component of an IR technique. The performance of any IR method critically depends on selecting an appropriate similarity measure for the given application domain. Since different SE tasks operate on different document types like bug reports, software descriptions, source code, etc. that often contain non-standard domain-specific vocabulary, it is essential to understand which similarity measures work best for different SE documents. This paper presents two case studies on the effect of different similarity measure on various SE documents w.r.t. two tasks: (i) project recommendation: finding similar GitHub projects and (ii) bug localization: retrieving buggy source file(s) correspond to a bug report. These tasks contain a diverse combination of textual (i.e. description, readme) and code (i.e. source code, API, import package) artifacts. We observe that the performance of IR models varies when applied to different artifact types. We find that, in general, the context-aware models achieve better performance on textual artifacts. In contrast, simple keyword-based bag-of-words models perform better on code artifacts. On the other hand, the probabilistic ranking model BM25 performs better on a mixture of text and code artifacts. We further investigate how such an informed choice of similarity measure impacts the performance of SE tools. In particular, we analyze two previously proposed tools for project recommendation and bug localization tasks, which leverage diverse software artifacts, and observe that an informed choice of similarity measure indeed leads to improved performance of the existing SE tools.
信息检索(IR)在多样化的软件工程(SE)任务中起关键作用,例如,错误本地化和分三局,代码检索,需求分析等。相似性度量的选择是IR技术的核心组成部分。任何IR方法的性能在关键上取决于为给定的应用域选择适当的相似性度量。由于不同的SE任务在不同的文档类型(例如错误报告,软件说明,源代码等)上运行,通常包含非标准域特异性词汇,因此必须了解哪些相似性指标最适合不同的SE文档。 本文介绍了两项有关不同相似性度量对各种SE文档W.R.T.的影响的案例研究。两个任务:(i)项目建议:查找类似的GitHub项目,(ii)错误本地化:检索错误源文件(S)对应于错误报告。这些任务包含文本(即描述,读书)和代码(即源代码,API,导入软件包)工件的各种组合。我们观察到,当应用于不同的人工类型时,IR模型的性能会有所不同。我们发现,总的来说,上下文感知模型在文本文物上实现了更好的性能。相比之下,简单的基于关键字的字袋模型在代码文物上的表现更好。另一方面,概率排名模型BM25在文本和代码文物的混合物中的性能更好。 我们进一步研究了这种明智的相似性措施选择如何影响SE工具的性能。特别是,我们分析了两个先前提出的用于项目建议和错误本地化任务的工具,这些工具利用了各种软件工件,并观察到,相似性措施的明智选择确实会导致现有SE工具的性能提高。
参考文献(0)
被引文献(7)

数据更新时间:{{ references.updateTime }}

Baishakhi Ray
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓