针对语言成分省略问题的依存句法分析研究
项目介绍
AI项目解读
基本信息
- 批准号:61673028
- 项目类别:面上项目
- 资助金额:61.0万
- 负责人:
- 依托单位:
- 学科分类:F03.自动化
- 结题年份:2020
- 批准年份:2016
- 项目状态:已结题
- 起止时间:2017-01-01 至2020-12-31
- 项目参与者:詹卫东; 许晶晶; 张晴; 郑略省; 文吉; 黄申; 罗帆;
- 关键词:
项目摘要
With the development of WWW and the increase of the mobile clients, there is a rapid and impactful increase of short web texts. Due to the simpler annotation, more flexible structures, and larger application impact, dependency parsing has been a hot research topic in the field of syntactic parsing. However, for web texts, dependency parsing faces a major issue, because web short texts contains lots of language information omitting phenomenons. This is a major challenge for dependency parsing with web texts. To deal with this problem, we study the language information omitting problem, and build a dependency parsing system that can capture such information for better natural language understanding on web texts. The major research points are as follows: (1) Build a three stage description system for language information omitting from surface to core layers. (2) Study the intrinsic rule and scheme of language information omitting, build an annotation strategy, and construct a corpus. (3) Study the language information omitting based dependency parsing framework, and propose a Coarse-to-Fine strategy for restoring the omitted language components. (4) For large-scale web text data, build the language information omitting based dependency parser to improve the accuracy of web text NLP systems.
随着互联网的发展和移动用户的增加,互联网短文本急剧增长,影响日益广泛。因为标注简单、表达灵活、便于应用的优势,依存句法分析是目前句法分析的研究热点。但是针对网络文本,依存句法分析面临很大困难,主要难点之一是网络短文本存在大量语言成分省略问题,对依存句法分析提出了挑战。本项目针对网络短文本的语言成分省略问题,构建相应的依存句法分析系统,为网络文本分析和理解等应用探寻有效的技术手段。主要研究内容如下:(1)建立语言成分省略的描述体系,从表层到深层归纳为三个层次对问题进行描述;(2)研究网络文本中语言成分省略的机制和规律,提出一套语言成分识别和还原的标注规范,建立一定规模的语料库;(3)研究基于语言成分还原的依存句法分析框架,在结构化学习模型的基础上设计Coarse-to-Fine的语言成分还原架构;(4)针对大规模网络短文本数据,实现基于语言成分还原的依存句法分析系统,提高网络文本分析效果。
结项摘要
本项目的主要内容是针对语言成分省略问题的依存句法分析。围绕依存句法分析的模型基础和任务基础以及数据构建进行研究。该研究包含三个方面,一是进一步改进模型基础,二是任务基础以及数据构建,三是联合模型的相关理论研究。我们在依存句法分析上进行实验,能够明显提高句法分析的效果。针对成分省略问题的依存句法分析任务,需要进行前期处理工作。在给定中文网络文本的条件下,需要对中文文本进行浅层句法分析、命名实体识别和词性标注,这些基础性工作可以显著提高依存句法分析算法的准确率。我们对文本的浅层句法分析,命名实体识别、词性标注这些依存句法分析的必要前置任务进行了一些研究,提高了这些任务的效果,为后续的语言成分省略问题的依存句法分析这一任务的研究提供了任务基础,同时构建了相关数据集。相关论文发表在AAAI、ICML、COLING、 LREC等高水平学术会议上。
项目成果
期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(10)
专利数量(0)
Towards easier and faster sequence labeling for natural language processing: A search-based probabilistic online learning framework (SAPO)
为自然语言处理实现更简单、更快速的序列标记:基于搜索的概率在线学习框架(SAPO)
- DOI:10.1016/j.ins.2018.11.025
- 发表时间:2019-04-01
- 期刊:INFORMATION SCIENCES
- 影响因子:8.1
- 作者:Sun, Xu;Ma, Shuming;Ren, Xuancheng
- 通讯作者:Ren, Xuancheng
Cross-Domain and Semisupervised Named Entity Recognition in Chinese Social Media: A Unified Model
中国社交媒体中的跨域半监督命名实体识别:统一模型
- DOI:10.1109/taslp.2018.2856625
- 发表时间:2018-11
- 期刊:IEEE-ACM Transactions on Audio Speech and Language Processing
- 影响因子:5.4
- 作者:Xu Jingjing;He Hangfeng;Sun Xu;Ren Xuancheng;Li Sujian
- 通讯作者:Li Sujian
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
一种具有故障隔离能力的MMC-HVDC换流站子模块拓扑研究
- DOI:10.16081/j.issn.1006-6047.2017.03.020
- 发表时间:2017
- 期刊:电力自动化设备
- 影响因子:--
- 作者:孙栩;朱晋;刘文龙;尹靖元;韦统振
- 通讯作者:韦统振
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
孙栩的其他基金
基于定义性数据的预训练语言模型词汇语义增强技术
- 批准号:62176002
- 批准年份:2021
- 资助金额:57.00 万元
- 项目类别:面上项目
基于定义性数据的预训练语言模型词汇语义增强技术
- 批准号:
- 批准年份:2021
- 资助金额:57 万元
- 项目类别:面上项目
多领域网络文本数据的自适应结构化分类方法研究
- 批准号:61300063
- 批准年份:2013
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}