正反例相结合的正则表达式极限识认算法

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61502184
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    20.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0201.计算机科学的基础理论
  • 结题年份:
    2018
  • 批准年份:
    2015
  • 项目状态:
    已结题
  • 起止时间:
    2016-01-01 至2018-12-31

项目摘要

Study of regular expression learning algorithms is not only of theoretical interest but also of practical importance. According to Gold’s learning paradigm of “identification in the limit”, the classical model of language learning, regular languages are not identifiable from positive data only. The known subclasses of regular languages that are identifiable have strong limit in expressive power, which restricts the use of them in practical applications. Gold has also proved that, together with negative data, the whole of regular languages can be identified. Most of the existing algorithms for identifying regular languages from positive and negative data take finite automata as learning target. The disadvantage of basing expression identification on the identification of automata is that when we finally translate automata into expressions by standard algorithms, the results are often clumsy and lengthy, not suitable for practical use. In this project, we propose to take regular expressions as the direct learning target, and investigate the theoretical problems and algorithms for identification in the limit of regular languages from positive and negative data. More specifically, we will focus on the following issues: design of identification algorithms, characterization of characteristic samples, theoretical analysis of algorithms and characteristic samples, evaluation method of the identification results, and so on. Apart from the standard regular expressions as target, we will also consider regular expressions with counting which are also commonly used in practice. The obtained results of this project will not only provide effective support for the use of regular expression learning algorithms in practice, but also can further enhance the theory of identification in the limit of regular languages.
对正则表达式学习算法的深入研究不仅具有重要理论意义,还具有较大实际应用价值。根据语言学习的经典理论模型,即Gold极限识认模型,正则语言在只有正例的情况下无法极限识认。已知的可识认子类对语言表达能力限制太强,在实际中不一定够用。如果同时含有反例,则整个正则语言类可以极限识认。已有的正反例相结合的正则语言识认算法大多以自动机为识认目标,而从自动机转换为表达式时存在长度爆炸等问题,给实际应用带来困难。因此,本项目围绕如何从含有正反例的样本信息中直接以正则表达式为学习目标,研究正则语言极限识认相关的理论和算法问题,包括:认识算法的设计和特征样本的刻画、算法及特征样本特性的理论分析、识认结果的评估等。识认目标除了标准表达式之外,还研究实际中经常用到的带数字出现的表达式。项目研究成果一方面能够为正则表达式学习算法的更好应用提供理论与算法支持,另一方面也可以丰富正则语言极限识认研究相关的理论体系。

结项摘要

形式语言的归纳学习致力于研究如何从语言的有限信息出发,通过归纳推断得到语言的定义。在形式语言体系中,正则语言是一类使用较为广泛并且具有良好特性的语言类。对以正则表达式为学习目标的正则语言学习算法的深入研究不仅具有重要理论意义,而且在基因序列识别、XML模式推断、信息抽取、图数据库中路径查询语句学习等领域具有广泛而重要的应用。本项目基于经典的语言极限识认模型,围绕如何从给定的样本信息中直接以正则表达式为学习目标,研究正则语言极限识认相关的理论和算法问题。主要研究成果简述如下。(1)从XML模式推断这一应用作为出发点,对现有的正则表达式学习算法现状进行了深入调研,对已有算法进行了细致的分类、归纳和对比。(2)提出一种基于连续重复子串挖掘和左联配的正则表达式学习算法。理论分析证明出该算法符合语言学习的极限识认模型,能够学习出一类不含“|”操作符的受限正则表达式,同时算法经过扩展可以学习出支持计数的扩展表达式。理论分析并总结出学习出的目标表达式所对应的特征样本的特点,并通过实验验证了理论分析结果的正确性。(3)基于软件测试中成对测试的思想提出一种正则表达式覆盖准则,称作“成对覆盖”,并设计和实现从正则表达式中自动生成满足成对覆盖准则的字符串生成算法。该算法可以用来为正则表达式识认(推断) 算法自动生成测试数据。(4) 研究一类路径查询语句的视图确定性问题,其中对路径表达式的性质、确定性问题的可判定性及复杂性等理论问题做了深入探讨,为正则表达式推断算法在图数据查询学习中的应用研究提供必要的知识积累。此外,还尝试将进化算法的思想应用于正则表达式学习中,研究如何对正则表达式进行编码,已经如何定义适应度函数和获得新的候选解使用的交叉、变异等算子。该部分工作正在进行中。这些研究成果一方面能够为正则表达式学习算法的更好应用提供理论与算法支持,另一方面也可以丰富正则语言极限识认研究相关的理论体系。

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(1)
专利数量(0)
String Generation for Testing Regular Expressions
用于测试正则表达式的字符串生成
  • DOI:
    10.1093/comjnl/bxy137
  • 发表时间:
    --
  • 期刊:
    The Computer Journal
  • 影响因子:
    --
  • 作者:
    Lixiao Zheng;Shuai Ma;Yuanyang Wang;Gang Lin
  • 通讯作者:
    Gang Lin
Social learning differential evolution
社会学习差异进化
  • DOI:
    10.1016/j.ins.2016.10.003
  • 发表时间:
    2018
  • 期刊:
    Information Sciences
  • 影响因子:
    8.1
  • 作者:
    Yiqiao Cai;Jingliang Liao;Tian Wang;Yonghong Chen;Hui Tian
  • 通讯作者:
    Hui Tian
Neighborhood-adaptive differential evolution for global numerical optimization
用于全局数值优化的邻域自适应差分进化
  • DOI:
    10.1016/j.asoc.2017.06.002
  • 发表时间:
    2017
  • 期刊:
    Applied Soft Computing
  • 影响因子:
    8.7
  • 作者:
    Yiqiao Cai;Guo Sun;Tian Wang;Hui Tian;Yonghong Chen;Jiahai Wang
  • 通讯作者:
    Jiahai Wang
Single-View Determinacy and Rewriting Completeness for a Fragment of XPath Queries
XPath 查询片段的单视图确定性和重写完整性
  • DOI:
    10.1371/journal.pone.0225954
  • 发表时间:
    2016
  • 期刊:
    Science China (Information Sciences)
  • 影响因子:
    --
  • 作者:
    Zheng Lixiao;Ma Shuai;Luo Xiangyu;Ma Tiejun
  • 通讯作者:
    Ma Tiejun
XML模式推断研究综述
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    电子学报
  • 影响因子:
    --
  • 作者:
    郑黎晓;王成
  • 通讯作者:
    王成

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

多尺度加权 LBP 的人脸识别
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    光电工程
  • 影响因子:
    --
  • 作者:
    王 成;郭 飞;赖雄鸣;郑黎晓
  • 通讯作者:
    郑黎晓
基于文法分支覆盖的短句子生成算法
  • DOI:
    --
  • 发表时间:
    2011
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    郑黎晓;许智武;陈海明
  • 通讯作者:
    陈海明
改进D-S证据理论的多分类器决策层融合系统
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    小型微型计算机系统
  • 影响因子:
    --
  • 作者:
    王成;郭飞;郑黎晓;赖雄鸣
  • 通讯作者:
    赖雄鸣

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码