正反例相结合的正则表达式极限识认算法
项目介绍
AI项目解读
基本信息
- 批准号:61502184
- 项目类别:青年科学基金项目
- 资助金额:20.0万
- 负责人:
- 依托单位:
- 学科分类:F0201.计算机科学的基础理论
- 结题年份:2018
- 批准年份:2015
- 项目状态:已结题
- 起止时间:2016-01-01 至2018-12-31
- 项目参与者:陈海明; 蔡奕侨; 李静; 官威; 苏芳芳; 彭飞飞; 张玉侠; 王建英;
- 关键词:
项目摘要
Study of regular expression learning algorithms is not only of theoretical interest but also of practical importance. According to Gold’s learning paradigm of “identification in the limit”, the classical model of language learning, regular languages are not identifiable from positive data only. The known subclasses of regular languages that are identifiable have strong limit in expressive power, which restricts the use of them in practical applications. Gold has also proved that, together with negative data, the whole of regular languages can be identified. Most of the existing algorithms for identifying regular languages from positive and negative data take finite automata as learning target. The disadvantage of basing expression identification on the identification of automata is that when we finally translate automata into expressions by standard algorithms, the results are often clumsy and lengthy, not suitable for practical use. In this project, we propose to take regular expressions as the direct learning target, and investigate the theoretical problems and algorithms for identification in the limit of regular languages from positive and negative data. More specifically, we will focus on the following issues: design of identification algorithms, characterization of characteristic samples, theoretical analysis of algorithms and characteristic samples, evaluation method of the identification results, and so on. Apart from the standard regular expressions as target, we will also consider regular expressions with counting which are also commonly used in practice. The obtained results of this project will not only provide effective support for the use of regular expression learning algorithms in practice, but also can further enhance the theory of identification in the limit of regular languages.
对正则表达式学习算法的深入研究不仅具有重要理论意义,还具有较大实际应用价值。根据语言学习的经典理论模型,即Gold极限识认模型,正则语言在只有正例的情况下无法极限识认。已知的可识认子类对语言表达能力限制太强,在实际中不一定够用。如果同时含有反例,则整个正则语言类可以极限识认。已有的正反例相结合的正则语言识认算法大多以自动机为识认目标,而从自动机转换为表达式时存在长度爆炸等问题,给实际应用带来困难。因此,本项目围绕如何从含有正反例的样本信息中直接以正则表达式为学习目标,研究正则语言极限识认相关的理论和算法问题,包括:认识算法的设计和特征样本的刻画、算法及特征样本特性的理论分析、识认结果的评估等。识认目标除了标准表达式之外,还研究实际中经常用到的带数字出现的表达式。项目研究成果一方面能够为正则表达式学习算法的更好应用提供理论与算法支持,另一方面也可以丰富正则语言极限识认研究相关的理论体系。
结项摘要
形式语言的归纳学习致力于研究如何从语言的有限信息出发,通过归纳推断得到语言的定义。在形式语言体系中,正则语言是一类使用较为广泛并且具有良好特性的语言类。对以正则表达式为学习目标的正则语言学习算法的深入研究不仅具有重要理论意义,而且在基因序列识别、XML模式推断、信息抽取、图数据库中路径查询语句学习等领域具有广泛而重要的应用。本项目基于经典的语言极限识认模型,围绕如何从给定的样本信息中直接以正则表达式为学习目标,研究正则语言极限识认相关的理论和算法问题。主要研究成果简述如下。(1)从XML模式推断这一应用作为出发点,对现有的正则表达式学习算法现状进行了深入调研,对已有算法进行了细致的分类、归纳和对比。(2)提出一种基于连续重复子串挖掘和左联配的正则表达式学习算法。理论分析证明出该算法符合语言学习的极限识认模型,能够学习出一类不含“|”操作符的受限正则表达式,同时算法经过扩展可以学习出支持计数的扩展表达式。理论分析并总结出学习出的目标表达式所对应的特征样本的特点,并通过实验验证了理论分析结果的正确性。(3)基于软件测试中成对测试的思想提出一种正则表达式覆盖准则,称作“成对覆盖”,并设计和实现从正则表达式中自动生成满足成对覆盖准则的字符串生成算法。该算法可以用来为正则表达式识认(推断) 算法自动生成测试数据。(4) 研究一类路径查询语句的视图确定性问题,其中对路径表达式的性质、确定性问题的可判定性及复杂性等理论问题做了深入探讨,为正则表达式推断算法在图数据查询学习中的应用研究提供必要的知识积累。此外,还尝试将进化算法的思想应用于正则表达式学习中,研究如何对正则表达式进行编码,已经如何定义适应度函数和获得新的候选解使用的交叉、变异等算子。该部分工作正在进行中。这些研究成果一方面能够为正则表达式学习算法的更好应用提供理论与算法支持,另一方面也可以丰富正则语言极限识认研究相关的理论体系。
项目成果
期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(1)
专利数量(0)
String Generation for Testing Regular Expressions
用于测试正则表达式的字符串生成
- DOI:10.1093/comjnl/bxy137
- 发表时间:--
- 期刊:The Computer Journal
- 影响因子:--
- 作者:Lixiao Zheng;Shuai Ma;Yuanyang Wang;Gang Lin
- 通讯作者:Gang Lin
Social learning differential evolution
社会学习差异进化
- DOI:10.1016/j.ins.2016.10.003
- 发表时间:2018
- 期刊:Information Sciences
- 影响因子:8.1
- 作者:Yiqiao Cai;Jingliang Liao;Tian Wang;Yonghong Chen;Hui Tian
- 通讯作者:Hui Tian
Neighborhood-adaptive differential evolution for global numerical optimization
用于全局数值优化的邻域自适应差分进化
- DOI:10.1016/j.asoc.2017.06.002
- 发表时间:2017
- 期刊:Applied Soft Computing
- 影响因子:8.7
- 作者:Yiqiao Cai;Guo Sun;Tian Wang;Hui Tian;Yonghong Chen;Jiahai Wang
- 通讯作者:Jiahai Wang
Single-View Determinacy and Rewriting Completeness for a Fragment of XPath Queries
XPath 查询片段的单视图确定性和重写完整性
- DOI:10.1371/journal.pone.0225954
- 发表时间:2016
- 期刊:Science China (Information Sciences)
- 影响因子:--
- 作者:Zheng Lixiao;Ma Shuai;Luo Xiangyu;Ma Tiejun
- 通讯作者:Ma Tiejun
XML模式推断研究综述
- DOI:--
- 发表时间:2016
- 期刊:电子学报
- 影响因子:--
- 作者:郑黎晓;王成
- 通讯作者:王成
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
多尺度加权 LBP 的人脸识别
- DOI:--
- 发表时间:2014
- 期刊:光电工程
- 影响因子:--
- 作者:王 成;郭 飞;赖雄鸣;郑黎晓
- 通讯作者:郑黎晓
基于文法分支覆盖的短句子生成算法
- DOI:--
- 发表时间:2011
- 期刊:软件学报
- 影响因子:--
- 作者:郑黎晓;许智武;陈海明
- 通讯作者:陈海明
改进D-S证据理论的多分类器决策层融合系统
- DOI:--
- 发表时间:2015
- 期刊:小型微型计算机系统
- 影响因子:--
- 作者:王成;郭飞;郑黎晓;赖雄鸣
- 通讯作者:赖雄鸣
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}