基于复用分析的电子表格计算语义错误检测技术研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61702490
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    25.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0203.软件理论、软件工程与服务
  • 结题年份:
    2020
  • 批准年份:
    2017
  • 项目状态:
    已结题
  • 起止时间:
    2018-01-01 至2020-12-31

项目摘要

Spreadsheets are widely used by end users for various business tasks, such as data storage and tracking, financial reporting, education, and so on. In spreadsheets, each cell has its computational semantics. However, if the data or formula in a cell cannot represent the user’s semantic intent, the cell will contain a computational semantic error, and degrade the quality of spreadsheets. It is challenging to identify which cells contain computational semantic errors, because this involves knowledge of intended semantics, which often requires human judgments..We observe that spreadsheet reuse is very common in practice. End users may perform similar tasks by reusing their existing spreadsheets or a block of cells (table) in their spreadsheets. The corresponding cells in these reused spreadsheets and tables are supposed to keep the same or similar computational semantics. This project aims to extract spreadsheet reuse, and detect computational semantic errors by analyzing the inconsistencies among reused spreadsheets and tables. Specifically, we propose several novel techniques as follows: automatically building versioned spreadsheet corpora; automatically detecting and visualizing table reuse in spreadsheets; and automatically detecting reuse-related computational semantic errors. Further, we publish the first industrial-scale spreadsheet corpus with version information, which can be used for further spreadsheet reuse studies. We believe that our prototype tools could be used on those spreadsheets in governments and companies, to detect computational semantic errors in them, and further improve the quality of spreadsheets.
电子表格广泛应用于数据分析、金融、教育等多个领域。电子表格中的数据与公式具有一定的计算语义,当他们不能反映用户的真实语义意图时,则会产生计算语义错误,降低电子表格质量。由于该类错误与用户的语义意图相关,难以被现有方法自动化检测。.我们发现电子表格中复用十分常见。电子表格用户通过复用现有电子表格来完成新的类似业务,而复用前后的电子表格保持相同或类似的计算语义。基于此,本项目提出一套电子表格复用分析方法,并通过分析复用表格之间的计算语义冲突,检测潜在的计算语义错误。具体内容包括:多版本电子表格数据集构建方法;表格复用抽取及可视化方法;以及面向复用的计算语义错误检测方法。在这些关键技术研究基础上,形成国内外第一个公开发布的多版本电子表格数据集,并开发一组电子表格复用抽取及计算语义错误检测工具。本项目对提高电子表格的质量具有重要的研究价值与现实意义。

结项摘要

电子表格广泛应用于数据分析、金融、教育等多个领域。电子表格中的数据与公式具有一定的计算语义,当他们不能反映用户的真实语义意图时,则会产生计算语义错误,降低电子表格质量。由于该类错误与用户的语义意图相关,难以被现有方法自动化检测。我们发现,电子表格用户通过复用现有电子表格来完成新的类似业务,而复用前后的电子表格保持相同或类似的计算语义。基于此,本项目主要研究以下内容:复用电子表格数据集构建、电子表格中复用抽取方法、以及面向复用的计算语义错误检测方法。..本项目的重要研究成果如下:(1)构建了面向电子表格复用的电子表格数据集,并在该数据集上进行深入实证研究,发现了一系列电子表格复用面临的问题与挑战。(2)提出了一种基于机器学习的表格复用抽取方法,利用表格的格式与语义特征,使得表格复用抽取的准确度达到97.8%。(3)提出了面向表格复用的电子表格错误检测方法,能够准确检测电子表格计算语义错误。(4)针对表格内部存在的复用关系,提出了可扩展单元组、单元阵列等多种复用形式,并提出了机器学习、规则分析等的多种复用抽取方法。(5)针对表格内部结构难以被理解的问题,提出了基于机器学习的电子表格结构理解和抽取方法,准确的达到75.2%。..本项目对提高电子表格的质量具有重要的研究价值与现实意义。我们正在与微软亚洲研究院、金山办公开展合作,将本项目的研究成果应用到主流电子表格系统,如Excel、WPS。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(3)
会议论文数量(5)
专利数量(1)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

程序分析研究进展
  • DOI:
    10.13328/j.cnki.jos.005651
  • 发表时间:
    2019
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    张健;张超;玄跻峰;熊英飞;王千祥;梁彬;李炼;窦文生;陈振邦;陈立前;蔡彦
  • 通讯作者:
    蔡彦
程序分析研究进展
  • DOI:
    --
  • 发表时间:
    2018
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    张健;张超;玄跻峰;熊英飞;王千祥;梁彬;李炼;窦文生;陈振邦;陈立前;蔡彦
  • 通讯作者:
    蔡彦
程序分析研究进展
  • DOI:
    10.13328/j.cnki.jos.005651
  • 发表时间:
    --
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    张健;张超;玄跻峰;熊英飞;王千祥;梁彬;李炼;窦文生;陈振邦;陈立前;蔡彦
  • 通讯作者:
    蔡彦
程序分析研究进展
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    张健;张超;玄跻峰;熊英飞;王千祥;梁彬;李炼;窦文生;陈振邦;陈立前;蔡彦
  • 通讯作者:
    蔡彦
基于状态方面的Web服务动态替换
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机科学
  • 影响因子:
    --
  • 作者:
    窦文生;刘绍华;魏峻;吴国全
  • 通讯作者:
    吴国全

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

窦文生的其他基金

分布式系统中失效恢复缺陷分析与检测
  • 批准号:
    62072444
  • 批准年份:
    2020
  • 资助金额:
    56 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码