针对语言成分省略问题的依存句法分析研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61673028
项目类别：
面上项目
资助金额：
61.0万
负责人：
孙栩
依托单位：
北京大学
学科分类：
F03.自动化
结题年份：
2020
批准年份：
2016
项目状态：
已结题
起止时间：
2017-01-01 至2020-12-31

项目参与者：
詹卫东；许晶晶；张晴；郑略省；文吉；黄申；罗帆；
关键词：
网络短文本粗粒度到细粒度句法分析语言成分还原语言成分省略依存结构分析

项目摘要

With the development of WWW and the increase of the mobile clients, there is a rapid and impactful increase of short web texts. Due to the simpler annotation, more flexible structures, and larger application impact, dependency parsing has been a hot research topic in the field of syntactic parsing. However, for web texts, dependency parsing faces a major issue, because web short texts contains lots of language information omitting phenomenons. This is a major challenge for dependency parsing with web texts. To deal with this problem, we study the language information omitting problem, and build a dependency parsing system that can capture such information for better natural language understanding on web texts. The major research points are as follows: (1) Build a three stage description system for language information omitting from surface to core layers. (2) Study the intrinsic rule and scheme of language information omitting, build an annotation strategy, and construct a corpus. (3) Study the language information omitting based dependency parsing framework, and propose a Coarse-to-Fine strategy for restoring the omitted language components. (4) For large-scale web text data, build the language information omitting based dependency parser to improve the accuracy of web text NLP systems.

随着互联网的发展和移动用户的增加，互联网短文本急剧增长，影响日益广泛。因为标注简单、表达灵活、便于应用的优势，依存句法分析是目前句法分析的研究热点。但是针对网络文本，依存句法分析面临很大困难，主要难点之一是网络短文本存在大量语言成分省略问题，对依存句法分析提出了挑战。本项目针对网络短文本的语言成分省略问题，构建相应的依存句法分析系统，为网络文本分析和理解等应用探寻有效的技术手段。主要研究内容如下：(1)建立语言成分省略的描述体系，从表层到深层归纳为三个层次对问题进行描述；(2)研究网络文本中语言成分省略的机制和规律，提出一套语言成分识别和还原的标注规范，建立一定规模的语料库；(3)研究基于语言成分还原的依存句法分析框架，在结构化学习模型的基础上设计Coarse-to-Fine的语言成分还原架构；(4)针对大规模网络短文本数据，实现基于语言成分还原的依存句法分析系统，提高网络文本分析效果。

结项摘要

本项目的主要内容是针对语言成分省略问题的依存句法分析。围绕依存句法分析的模型基础和任务基础以及数据构建进行研究。该研究包含三个方面，一是进一步改进模型基础，二是任务基础以及数据构建，三是联合模型的相关理论研究。我们在依存句法分析上进行实验，能够明显提高句法分析的效果。针对成分省略问题的依存句法分析任务，需要进行前期处理工作。在给定中文网络文本的条件下，需要对中文文本进行浅层句法分析、命名实体识别和词性标注，这些基础性工作可以显著提高依存句法分析算法的准确率。我们对文本的浅层句法分析，命名实体识别、词性标注这些依存句法分析的必要前置任务进行了一些研究，提高了这些任务的效果，为后续的语言成分省略问题的依存句法分析这一任务的研究提供了任务基础，同时构建了相关数据集。相关论文发表在AAAI、ICML、COLING、 LREC等高水平学术会议上。

项目成果

期刊论文数量（3）

专著数量（0）

科研奖励数量（0）

会议论文数量（10）

专利数量（0）

Towards easier and faster sequence labeling for natural language processing: A search-based probabilistic online learning framework (SAPO)

为自然语言处理实现更简单、更快速的序列标记：基于搜索的概率在线学习框架（SAPO）

DOI：
10.1016/j.ins.2018.11.025
发表时间：
2019-04-01
期刊：
INFORMATION SCIENCES
影响因子：
8.1
作者：
Sun, Xu;Ma, Shuming;Ren, Xuancheng
通讯作者：
Ren, Xuancheng

Cross-Domain and Semisupervised Named Entity Recognition in Chinese Social Media: A Unified Model

中国社交媒体中的跨域半监督命名实体识别：统一模型

DOI：
10.1109/taslp.2018.2856625
发表时间：
2018-11
期刊：
IEEE-ACM Transactions on Audio Speech and Language Processing
影响因子：
5.4
作者：
Xu Jingjing;He Hangfeng;Sun Xu;Ren Xuancheng;Li Sujian
通讯作者：
Li Sujian

数据更新时间：{{ journalArticles.updateTime }}

DOI：
{{ item.doi || "--"}}
发表时间：
{{ item.publish_year || "--" }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor || "--"}}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ patent.updateTime }}

其他文献

一种具有故障隔离能力的MMC-HVDC换流站子模块拓扑研究

DOI：
10.16081/j.issn.1006-6047.2017.03.020
发表时间：
2017
期刊：
电力自动化设备
影响因子：
--
作者：
孙栩;朱晋;刘文龙;尹靖元;韦统振
通讯作者：
韦统振

其他文献

DOI：
{{ item.doi || "--" }}
发表时间：
{{ item.publish_year || "--"}}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor || "--" }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

内容获取失败，请点击重试

重试

联系客服

开始分析

查看分析示例

此项目为已结题，我已根据课题信息分析并撰写以下内容，帮您拓宽课题思路：

AI项目思路

AI技术路线图

孙栩的其他基金

基于定义性数据的预训练语言模型词汇语义增强技术

批准号：
62176002
批准年份：
2021
资助金额：
57.00 万元
项目类别：
面上项目

基于定义性数据的预训练语言模型词汇语义增强技术

批准号：
批准年份：
2021
资助金额：
57 万元
项目类别：
面上项目

多领域网络文本数据的自适应结构化分类方法研究

批准号：
61300063
批准年份：
2013
资助金额：
25.0 万元
项目类别：
青年科学基金项目

相似国自然基金

批准号：
{{ item.ratify_no }}
批准年份：
{{ item.approval_year }}
资助金额：
{{ item.support_num }}
项目类别：
{{ item.project_type }}

相似海外基金

批准号：
{{ item.ratify_no }}
财政年份：
{{ item.approval_year }}
资助金额：
{{ item.support_num }}
项目类别：
{{ item.project_type }}

会员权益说明：

针对语言成分省略问题的依存句法分析研究

基本信息

项目摘要

结项摘要

项目成果

其他文献

其他文献

AI项目摘要

AI项目思路

AI技术路线图

孙栩的其他基金

相似国自然基金

相似海外基金

AI项目解读示例

AI项目摘要：

AI项目思路：

AI技术路线图