汉语篇章连贯性分析计算模型研究
项目介绍
AI项目解读
基本信息
- 批准号:61402208
- 项目类别:青年科学基金项目
- 资助金额:24.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2017
- 批准年份:2014
- 项目状态:已结题
- 起止时间:2015-01-01 至2017-12-31
- 项目参与者:刘建明; 刘长红; 罗文兵; 司慧枫; 江瑶; 陈淑娴;
- 关键词:
项目摘要
Discourse coherence analysis plays a critical role in discourse understanding. Currently, related works in discourse coherence analysis are still in their infancy, especially in the research on the cohesion pattern and rhetorical relation among sentences within a discourse. While the cohesion pattern and rhetorical relations among sentences within a discourse are two essential and difficult issues in discourse coherence mechanism. In particular, this project focuses on the specific characteristics and rules of Chinese to investigate computational model of Chinese coherence analysis. First, a cohesion pattern-based discourse coherence model will be presented. The model describes discourse coherence via calculating the similarity of theme or rheme of adjacent sentences within a discourse, together with more word knowledge information. Second, a rhetorical relation-based discourse coherence model will be presented. The model describes discourse coherence via identifying the rhetorical relation, e.g. causality, coordination, transition and explanation, among entities and events in adjacent sentences within a discourse. Finally, a unified platform is proposed for both the cohesion pattern and rhetorical relation among sentences within a discourse via joint learning model. In summary, this project will promote the research on Chinese discourse coherence analysis, and is thus valuable for the development of computational linguistics and Chinese information processing.
篇章连贯性是语篇理解的基础。目前,相关研究刚刚起步,特别是对篇章中句子间的衔接方式以及修辞关系等相关文献还比较少见。然而,篇章中句子间的衔接方式和修辞关系是连贯性机制中的核心问题,同时也是难点所在。本项目将结合汉语自身的特点和规律,从以下三个方面开展汉语篇章连贯性分析的计算模型研究:1)研究基于句子间衔接方式的篇章连贯性计算模型,通过计算相邻句子中主位和述位的相似度来刻画篇章连贯性,同时融入更多的世界知识信息。2)研究基于句子间修辞关系的篇章连贯性计算模型,通过融合句子间实体和事件的因果、并列、转折和解说等修辞关系来刻画篇章的连贯性。3)最后利用联合学习机制将篇章中句子间的衔接方式和修辞关系加以融合,建立统一的汉语篇章连贯性检测平台。本项目开展的研究工作对于推进汉语篇章连贯性分析的研究,推动计算语言学研究和汉语信息技术的发展具有理论意义和应用价值。
结项摘要
本课题实现了一个高性能的汉语篇章连贯性检测系统,在国内和国际同行中广泛使用的基准语料上,性能达到国内领先水平。三年来,课题总体按照申请书计划开展,进展顺利,完成情况及取得的成果已达到预期目标。本课题已完成的研究内容包括三个方面(其中第一和第二项为申请书计划研究内容,第三项为本课扩展研究内容):. 一是基于主位-述位结构理论的篇章连贯性建模。本课题重点探索了系统功能语法关于文本中句子间的主位推进理论,将其从定性层面拓展至定量层面,并利用余弦相似度和基于机器翻译中参考译文与翻译文本的相似度对其可计算化,实现文本的连贯性建模。基于国际基准语料ESOL(English as a Second or Other Language) 的实验表明了本课提出的主位结构方法优于传统的基于篇章关系和基于实体的方法。. 二是融合实体信息的基于深度学习的篇章连贯性模型,分别提出了实体驱动的结构递归神经网络和双向长短期记忆时间递归神经网络两种模型。首先将篇章中句子采用递归深度模型表示成向量,然后将句子中的实体(名词)进行分布式表示,最后将这两种类型的向量通过代数运算加以融合,以更好地突显句子中实体的重要性。基于国际基准语料和标注的汉语作文语料上的实验表明了本课提出的实体驱动的深度学习方法优于传统的神经网络和基于实体的方法。. 三是从语料库的构建和语言类型自动识别两个方面研究了赣方言和大中华区篇章分析。针对赣方言篇章平行语料库,本课题提出了一个两层次细粒度的赣方言表示模式,将其表示成汉语字符和汉语拼音形式。我们手工构建了131.5小时的310篇6种体裁文档的19个区域的赣方言与普通话在篇章层面的平行语料库。此外,本课题手工标注了一致性程度达到95%以上的10,000组大中华区平行词对齐语料库,并提出了基于word2vec的两阶段词对齐模型。实验结果表明此方法显著优于现有的GIZA++和基于隐马尔可夫模型的基准模型。针对语言自动识别问题,我们首先从互联网中抽取了27,679组大中华区句子和3,878组赣方言句子,然后研究了n元文法特征,并研究了基于互信息的词级别的特征,同时有效融合了前一阶段的词对齐特征。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(1)
专利数量(1)
实体驱动的双向 LSTM 篇章连贯性建模 (协助王明文指导)
- DOI:--
- 发表时间:2017
- 期刊:中文信息学报
- 影响因子:--
- 作者:杜舒静;徐凡;王明文
- 通讯作者:王明文
基于主位-述位结构理论的英文作文连贯性建模研究
- DOI:--
- 发表时间:2016
- 期刊:中文信息学报
- 影响因子:--
- 作者:徐凡;王明文;谢旭升;李茂西;万剑怡
- 通讯作者:万剑怡
Modeling Monolingual Character Alignment for Automatic Evaluation of Chinese Translation
中文翻译自动评估的单语字符对齐建模
- DOI:10.1145/2815619
- 发表时间:2016-01
- 期刊:ACM TRANSACTIONS ON ASIAN AND LOW-RESOURCE LANGUAGE INFORMATION PROCESSING
- 影响因子:2
- 作者:Maoxi Li;Mingwen Wang;Hanxi Li;Fan Xu
- 通讯作者:Fan Xu
机器译文自动评价中基于IHMM的近义词匹配方法研究
- DOI:--
- 发表时间:2016
- 期刊:中文信息学报
- 影响因子:--
- 作者:李茂西;徐凡;王明文
- 通讯作者:王明文
基于word2vec的大中华区词对齐库的构建
- DOI:--
- 发表时间:2015
- 期刊:中文信息学报
- 影响因子:--
- 作者:王明文;徐雄飞;徐凡;李茂西
- 通讯作者:李茂西
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
磷酸二酯酶5抑制剂的神经保护作用研究进展
- DOI:--
- 发表时间:2017
- 期刊:中国药理学通报
- 影响因子:--
- 作者:徐凡;雷鸣;龙隆;龚其海;高健美
- 通讯作者:高健美
替代治疗对甲减患者血脂及血红蛋白的影响
- DOI:--
- 发表时间:--
- 期刊:云南医药
- 影响因子:--
- 作者:徐凡;杨莹;张瑛
- 通讯作者:张瑛
La0.7Mg0.3-xLix Ni2.8Co0.5(x=0.00,0.05,0.10,0.15)合金制备与电化学性能的研究
- DOI:--
- 发表时间:2016
- 期刊:材料导报
- 影响因子:--
- 作者:李家丞;徐凡;游经纬;叶珊;郭进;蓝志强
- 通讯作者:蓝志强
商贸集群相关制造业发展的动力机制探析——以山东临沂为例
- DOI:--
- 发表时间:2015
- 期刊:地理科学进展
- 影响因子:--
- 作者:朱华晟;贺清灿;任灵芝;徐凡
- 通讯作者:徐凡
基于树核的隐式篇章关系识别研究
- DOI:--
- 发表时间:--
- 期刊:软件学报
- 影响因子:--
- 作者:徐凡;朱巧明;周国栋
- 通讯作者:周国栋
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
徐凡的其他基金
多模态社交媒体虚假信息检测研究
- 批准号:62162031
- 批准年份:2021
- 资助金额:37 万元
- 项目类别:地区科学基金项目
赣方言篇章平行语料库构建及计算模型研究
- 批准号:61772246
- 批准年份:2017
- 资助金额:59.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}