维吾尔文命名实体识别关键技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61262060
- 项目类别:地区科学基金项目
- 资助金额:45.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2016
- 批准年份:2012
- 项目状态:已结题
- 起止时间:2013-01-01 至2016-12-31
- 项目参与者:吴生武; 阿不都热合曼·买合买提; 苏来曼·克依木; 邹岳琳; 阿米妮古丽·奥斯曼; 赛依旦·阿不力米提; 阿里·漠民; 海日尼沙·木沙;
- 关键词:
项目摘要
Named entity is the main carrier of information, used to express the main content of the text, and is also the basis for correctly understanding the text, Named Entity Recognition(NER) is the most simple and quick way to understand an article. In the area of natural language processing research, the result of NER is extremely important to morphological, syntactic and semantic analysis, in terms of application, NER is basic key technology for information extraction, machine translation, information filtering, question-and-answer system etc. At present, many researchers of domestic and foreign have carried in-depth studies on NER, proposed algorithms, models, made a major breakthrough, and developped appilicable systems. So far, no scholars have carried any systematically work on Uyghur NER technology, NER has become the bottleneck of Uyghur information processing development. In this project, we build a 500 million words artificial tagged corpus by using existing corpus, carry research on Uyghur people name recognition, place name recognition, oragnization name recogniton by using rule based and statistical based methods, and develop an applicale system, this system will improve the performance of system such as Chinese-Uyghur Machine Translation system, Uyghur information retrieval system and Uyghur illegal information filtering systems.
命名实体是信息的主要载体,用来表达文本的主要内容,也是正确理解文本的基础,进行命名实体识别是了解一篇文章最简单快捷的一种方法。在自然语言处理研究方面,命名实体识别的效果,对词法、句法、语义分析等都具有极其重要的影响,在应用方面,命名实体识别是信息抽取、机器翻译、信息过滤、问答系统等研究分支的基础技术。目前,在国内外的众多研究者已对命名实体识别技术展开了深入研究,提出了很多算法、模型,取得了很大的突破,并研发了可用的识别系统。迄今为止,还没有学者针对维吾尔文命名实体识别技术展开任何系统地研究工作,命名实体识别技术已经成为了制约维吾尔文信息处理进一步发展的瓶颈。本项目中,利用现有语料库构建500万词次人工标注的语料库,采用规则、统计等方法对维吾尔文人名、地名及机构名识别展开深入研究,并研发达到实用水平的识别系统,该系统将提高汉维机器翻译、维吾尔文信息检索、维吾尔文不良信息过滤等系统性能。
结项摘要
通过本项目的实施,收集与整理了近五年的中央新闻联播、自治区新闻联播和政府文献,政府新闻等文本资源。为了保证标注语料库的均衡性,利用已有的维吾尔文句子相似度和词向量选出50万句子进行自动标注,目前已完成267187条句子的人工验证。已验证的标注语料库包括7025439条词汇,210708条单词,实体数量524995条,不重复实体102672,33394条人名,50794条地名,18484条机构名,日期162318条,构建了1423条汉语-维吾尔语职务名称词典,218609条汉语-维吾尔语地名词典,18484条汉语-维吾尔语机构名词典等资源。.本项目中,围绕维吾尔文命名实体识别对拼写检查、词性标注、数字日期、事件类时间短语、人名识别、地名识别、地名识别、机构名识别、药品信息处理等进行研究,共发表论文15篇,其中会议论文5篇,与本项目研究内容直接有关论文7篇,与本项目研究内容关联的论文3篇,申请了4项软件著作权。为了提高语料库质量,避免拼写错误对标注一致性和匹配的影响研究了基于词典和统计的拼写检查方法;为了收集维吾尔文文本,扩大未标注语料库的规模结合其它项目,研究实现了基于规则和词典的维吾尔文多文字转换系统;因为维吾尔语是形态丰富的黏着语言,对名词形态分析进行了研究,并实现了基于混合策略的名词词干提取系统;采用统计和规则对维吾尔人名识别进行研究,再利用词向量与最大熵结合的方法对人名识别方法进行实验,准确率达到96.3%;同时,初步开展了利用双语平行语料库,对人名进行识别的方法,识别准确率为60.71%,其中识别为人名的准确率为90.63%,被错误识别率为9.37%,不被识别率为39.23%。为了提高词典与序列标注模型的结合,提出了CRF与词典结合的维吾尔文地名识别方法,准确率为94%左右。利用语法语义知识对维吾尔文机构名进行识别,实验结果表明,该算法识别的F值达到83.05%,获得了较好结果。本项目构建的资源和研究成果已提供其它相关项目应用,本项目组正在结合最新深度学习方法,继续开展研究,进一步扩建语料库,完善性能。
项目成果
期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(0)
基于统计和规则混合策略的维吾尔人名识别研究
- DOI:--
- 发表时间:2014
- 期刊:新疆大学学报(自然科学版)
- 影响因子:--
- 作者:加日拉·买买提热衣木;吐尔根·依布拉音;艾山·吾买尔
- 通讯作者:艾山·吾买尔
基于词干提取的维吾尔语事件类时间短语识别
- DOI:--
- 发表时间:2014
- 期刊:计算机工程与设计
- 影响因子:--
- 作者:吐尔根·依布拉音;麦热哈巴·艾力;艾山·吾买尔;帕力旦·吐尔逊
- 通讯作者:帕力旦·吐尔逊
混合策略的维吾尔语名词词干提取系统
- DOI:--
- 发表时间:2013
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:艾山·吾买尔;吐尔根·依布拉音;帕里旦·吐尔逊;吴小川
- 通讯作者:吴小川
基于众包的维吾尔语事件标注研究
- DOI:--
- 发表时间:2015
- 期刊:新疆大学学报(自然科学版)
- 影响因子:--
- 作者:陈昊;吐尔根·依布拉音;卡哈尔江·阿比的热西提;艾山·吾买尔
- 通讯作者:艾山·吾买尔
汉维时间数字和量词的识别与翻译研究
- DOI:--
- 发表时间:2016
- 期刊:中文信息学报
- 影响因子:--
- 作者:阿依古丽•哈力克;艾山•吾买尔;吐尔根•依布拉音;买合木提•买买提;卡哈尔江•阿比的热西提;吐尔根•依布拉音
- 通讯作者:吐尔根•依布拉音
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
融合词性特征的中文句子相似度计算方法
- DOI:--
- 发表时间:2020
- 期刊:计算机工程与设计
- 影响因子:--
- 作者:吴浩;艾山·吾买尔;卡哈尔江·阿比的热西提;王路路;吐尔根·依布拉音
- 通讯作者:吐尔根·依布拉音
基于机器学习的维吾尔文文本分类研究
- DOI:--
- 发表时间:2012
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:阿力木江·艾沙;吐尔根·依布拉音;艾山·吾买尔;马尔哈巴·艾力
- 通讯作者:马尔哈巴·艾力
混合策略的汉维辅助翻译系统的设计与实现
- DOI:10.16652/j.issn.1004-373x.2017.20.002
- 发表时间:2017
- 期刊:现代电子技术
- 影响因子:--
- 作者:解倩倩;艾山·吾买尔;吐尔根·依布拉音;买合木提·买买提;卡哈尔江·阿比的热西提
- 通讯作者:卡哈尔江·阿比的热西提
维吾尔语词向量的评测研究
- DOI:--
- 发表时间:2019
- 期刊:厦门大学学报(自然科学版)
- 影响因子:--
- 作者:吴浩;艾山·吾买尔;王路路;卡哈尔江·阿比的热西提;吐尔根·依布拉音
- 通讯作者:吐尔根·依布拉音
基于Django的汉维地址翻译网络服务的设计与实现
- DOI:--
- 发表时间:2020
- 期刊:现代计算机
- 影响因子:--
- 作者:斯拉吉艾合麦提·如则麦麦提;艾山·吾买尔;张济民;汪烈军;刘胜全
- 通讯作者:刘胜全
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
艾山·吾买尔的其他基金
中亚地区低资源形态丰富黏着语言的神经机器翻译研究
- 批准号:62166044
- 批准年份:2021
- 资助金额:35 万元
- 项目类别:地区科学基金项目
基于深度语义的汉维机器翻译研究
- 批准号:61662077
- 批准年份:2016
- 资助金额:41.0 万元
- 项目类别:地区科学基金项目
现代维吾尔语句法分析关键技术的研究
- 批准号:60963018
- 批准年份:2009
- 资助金额:21.0 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}