基于复用分析的电子表格计算语义错误检测技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61702490
- 项目类别:青年科学基金项目
- 资助金额:25.0万
- 负责人:
- 依托单位:
- 学科分类:F0203.软件理论、软件工程与服务
- 结题年份:2020
- 批准年份:2017
- 项目状态:已结题
- 起止时间:2018-01-01 至2020-12-31
- 项目参与者:徐良; 王杰; 高钰; 殷康;
- 关键词:
项目摘要
Spreadsheets are widely used by end users for various business tasks, such as data storage and tracking, financial reporting, education, and so on. In spreadsheets, each cell has its computational semantics. However, if the data or formula in a cell cannot represent the user’s semantic intent, the cell will contain a computational semantic error, and degrade the quality of spreadsheets. It is challenging to identify which cells contain computational semantic errors, because this involves knowledge of intended semantics, which often requires human judgments..We observe that spreadsheet reuse is very common in practice. End users may perform similar tasks by reusing their existing spreadsheets or a block of cells (table) in their spreadsheets. The corresponding cells in these reused spreadsheets and tables are supposed to keep the same or similar computational semantics. This project aims to extract spreadsheet reuse, and detect computational semantic errors by analyzing the inconsistencies among reused spreadsheets and tables. Specifically, we propose several novel techniques as follows: automatically building versioned spreadsheet corpora; automatically detecting and visualizing table reuse in spreadsheets; and automatically detecting reuse-related computational semantic errors. Further, we publish the first industrial-scale spreadsheet corpus with version information, which can be used for further spreadsheet reuse studies. We believe that our prototype tools could be used on those spreadsheets in governments and companies, to detect computational semantic errors in them, and further improve the quality of spreadsheets.
电子表格广泛应用于数据分析、金融、教育等多个领域。电子表格中的数据与公式具有一定的计算语义,当他们不能反映用户的真实语义意图时,则会产生计算语义错误,降低电子表格质量。由于该类错误与用户的语义意图相关,难以被现有方法自动化检测。.我们发现电子表格中复用十分常见。电子表格用户通过复用现有电子表格来完成新的类似业务,而复用前后的电子表格保持相同或类似的计算语义。基于此,本项目提出一套电子表格复用分析方法,并通过分析复用表格之间的计算语义冲突,检测潜在的计算语义错误。具体内容包括:多版本电子表格数据集构建方法;表格复用抽取及可视化方法;以及面向复用的计算语义错误检测方法。在这些关键技术研究基础上,形成国内外第一个公开发布的多版本电子表格数据集,并开发一组电子表格复用抽取及计算语义错误检测工具。本项目对提高电子表格的质量具有重要的研究价值与现实意义。
结项摘要
电子表格广泛应用于数据分析、金融、教育等多个领域。电子表格中的数据与公式具有一定的计算语义,当他们不能反映用户的真实语义意图时,则会产生计算语义错误,降低电子表格质量。由于该类错误与用户的语义意图相关,难以被现有方法自动化检测。我们发现,电子表格用户通过复用现有电子表格来完成新的类似业务,而复用前后的电子表格保持相同或类似的计算语义。基于此,本项目主要研究以下内容:复用电子表格数据集构建、电子表格中复用抽取方法、以及面向复用的计算语义错误检测方法。..本项目的重要研究成果如下:(1)构建了面向电子表格复用的电子表格数据集,并在该数据集上进行深入实证研究,发现了一系列电子表格复用面临的问题与挑战。(2)提出了一种基于机器学习的表格复用抽取方法,利用表格的格式与语义特征,使得表格复用抽取的准确度达到97.8%。(3)提出了面向表格复用的电子表格错误检测方法,能够准确检测电子表格计算语义错误。(4)针对表格内部存在的复用关系,提出了可扩展单元组、单元阵列等多种复用形式,并提出了机器学习、规则分析等的多种复用抽取方法。(5)针对表格内部结构难以被理解的问题,提出了基于机器学习的电子表格结构理解和抽取方法,准确的达到75.2%。..本项目对提高电子表格的质量具有重要的研究价值与现实意义。我们正在与微软亚洲研究院、金山办公开展合作,将本项目的研究成果应用到主流电子表格系统,如Excel、WPS。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(3)
会议论文数量(5)
专利数量(1)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
程序分析研究进展
- DOI:10.13328/j.cnki.jos.005651
- 发表时间:2019
- 期刊:软件学报
- 影响因子:--
- 作者:张健;张超;玄跻峰;熊英飞;王千祥;梁彬;李炼;窦文生;陈振邦;陈立前;蔡彦
- 通讯作者:蔡彦
程序分析研究进展
- DOI:--
- 发表时间:2018
- 期刊:软件学报
- 影响因子:--
- 作者:张健;张超;玄跻峰;熊英飞;王千祥;梁彬;李炼;窦文生;陈振邦;陈立前;蔡彦
- 通讯作者:蔡彦
程序分析研究进展
- DOI:10.13328/j.cnki.jos.005651
- 发表时间:--
- 期刊:软件学报
- 影响因子:--
- 作者:张健;张超;玄跻峰;熊英飞;王千祥;梁彬;李炼;窦文生;陈振邦;陈立前;蔡彦
- 通讯作者:蔡彦
程序分析研究进展
- DOI:--
- 发表时间:2019
- 期刊:软件学报
- 影响因子:--
- 作者:张健;张超;玄跻峰;熊英飞;王千祥;梁彬;李炼;窦文生;陈振邦;陈立前;蔡彦
- 通讯作者:蔡彦
基于状态方面的Web服务动态替换
- DOI:--
- 发表时间:--
- 期刊:计算机科学
- 影响因子:--
- 作者:窦文生;刘绍华;魏峻;吴国全
- 通讯作者:吴国全
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
窦文生的其他基金
分布式系统中失效恢复缺陷分析与检测
- 批准号:62072444
- 批准年份:2020
- 资助金额:56 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}