汉维医疗卫生用语资源库建设研究
项目介绍
AI项目解读
基本信息
- 批准号:61562082
- 项目类别:地区科学基金项目
- 资助金额:38.0万
- 负责人:
- 依托单位:
- 学科分类:F02.计算机科学
- 结题年份:2019
- 批准年份:2015
- 项目状态:已结题
- 起止时间:2016-01-01 至2019-12-31
- 项目参与者:木合亚提.尼亚孜别克; 洪勇明; 巴吐尔.艾沙; 瓦依提.阿不力孜; 买买提依明·哈斯木; 热西旦木; 米尔阿迪力江·麦麦提; 李端端;
- 关键词:
项目摘要
The new health care reform of China proposed to move the medical system to information system, this way the medical information of patient could be better shared and reused. The rural regions of Xinjiang are very behind in medical facilities and information technologies. The minorities in these areas use their native languages, which make it’s hard for them to adapt the new medical information system and services. This project focus on the auto translation between Chinese and Uygur in the domain of media and health system, it has significant values but it has big challenges. First challenge is the applicability of the model: Chinese is different from Uyghur in word order and Chinese is also non symmetric in forms. The mature phrase translation model is not very useful in dealing with these problems, the Syntactic translation model is too complicated. This project is based on the model of phrase translation. In word level, it adds extended log linear model (Factored Model) which is dependent on syntactic information and form information. And these resolve the issues of word order and morphology. LOP is also applied to optimize parameters in the model in order to promote accuracy of translation;Secondly challenge is the short of parallel corpus: There is no relative parallel corpus for researching on the current Chinese-Uyghur medical care and health system. This work also proposes a semi-auto method to build the first parallel corpus for Chinese-Uygur medical care and health system. We present it as open source to all the researchers. This work would greatly help to make progress in the Han-minority machine translation and to promote the development of medical and health services in the minority areas. The work would promote common prosperity and progress for all our ethnic groups.
我国新医改提出医疗信息化建设,增强共享服务,新疆边远地区医疗设施落后,这里的少数民族一直使用自己的语言文字,语言问题将严重阻碍他们在新时期获得现代医疗服务,本项目研究汉维医疗卫生用语自动翻译具有重要社会价值和现实意义,但面临巨大挑战。第一翻译模型适用性:汉维两种语言语序不同且形态不对称,当前较成熟的短语翻译模型难以应对,句法翻译模型过于复杂。本项目基于短语翻译模型,在词级别上增加依存句法信息和形态信息构造扩展型对数线性模型(Factored模型),解决翻译中语序及词形错误等问题,并采用LOP方法对Factored模型参数进行优化,提高译文忠实度;第二平行语料匮乏:目前尚无研究所用汉维医疗卫生平行语料库。本项目提出半自动建库方法,构建首个汉维医疗卫生平行语料库,免费向研究者开放。本项目顺利完成,将推动我国汉民机器翻译研究进展,促进少数民族地区医疗卫生事业发展,从而增进各民族繁荣和团结。
结项摘要
本项目按研究计划有效实施,在资源建设方面取得以下成果,构建了汉维医疗卫生领域平行语料库,汉维双语医疗卫生电子词典,汉语医疗领域依存句法树库等,一定程度上填补国内空白。具体如下:人工采集汉语医疗卫生语料共计45207句。覆盖临床十二大学科:内科学、外科学、儿科学、妇产科学、传染病学、皮肤病学、五官科学、流行病学、神经病、精神病、眼科和口腔科,合计500种以上疾病。针对每种疾病,采集内容包括:病因、病理,临床表现;检查、辅助检查、实验室检查;诊断、鉴别诊断;治疗、理疗;预防等,是人工采集覆盖临床医学范围较广的专业语料库。同时,人工翻译获得汉维平行语料45207句对。人工采集汉语医疗卫生电子词典117519词条,人工翻译及自动化抽取方式获得汉维双语医疗卫生电子词典60141对词条。同时,借助哈尔滨工业大学LTP语言云平台,辅助人工校对,构建医疗卫生领域依存句法树17283句。以上资源为专业领域汉维机器翻译技术提高奠定基础,将促进医疗卫生领域自然语言处理技术研究,为迎接互联网+医疗,开拓新疆医疗领域智能化服务新前景。. 本项目围绕医疗卫生领域汉维机器翻译研究,首先面对稀缺、专业性强的平行语料库建设,探索数据采集、标准化、去噪、自动录入方法,分析了医疗卫生领域语料数据特征,与通用型语料不同的是,频率低的大多数词汇也是专业词汇,具有一定意义。其次,研究了现有中文分词技术在医疗卫生领域的应用,得出结论词典统计相结合的分词方法,准确率较高,达到94.4%;探索基于汉维医疗平行语料自动化提取大量医学双语术语的方法,构建双语电子词典;同时构建了稀有的医疗卫生领域依存句法树库;还研究了新疆各少数民族语言特征,具有区域语言共性,以上为提高机器翻译质量做了基础性研究。最后,研究了神经机器翻译技术,发表与课题相关论文共7篇,申请软件著作3项。本项目构建的资源和研究的成果无偿提供给国内其他研究团队使用。同时,结合最新神经机器翻译技术,继续展开研究,提高其在医疗卫生领域翻译性能。
项目成果
期刊论文数量(7)
专著数量(0)
科研奖励数量(1)
会议论文数量(0)
专利数量(0)
基于汉维医疗平行语料的双语术语抽取研究
- DOI:--
- 发表时间:2018
- 期刊:内蒙古大学学报(自然科学版)
- 影响因子:--
- 作者:于清
- 通讯作者:于清
汉维医疗平行语料库构建及特征分析
- DOI:--
- 发表时间:2017
- 期刊:新疆大学学报(自然科学版)
- 影响因子:--
- 作者:于清
- 通讯作者:于清
适用于医疗卫生领域的中文分词方法研究
- DOI:--
- 发表时间:2017
- 期刊:新疆师范大学学报(自然科学版)
- 影响因子:--
- 作者:于清
- 通讯作者:于清
An Analysis of the Formation of Regional Linguistic Universals
区域语言共性的形成分析
- DOI:--
- 发表时间:2018
- 期刊:International Conference on Contemporary Education, Social Sciences and Ecological Studies (CESSES )
- 影响因子:--
- 作者:Yongming Hong(洪勇明);Jiangmin Zhao
- 通讯作者:Jiangmin Zhao
面向神经机器翻译的集成学习方法分析
- DOI:--
- 发表时间:2019
- 期刊:中文信息学报
- 影响因子:--
- 作者:李北;王强;肖桐;姜雨帆;张哲旸;刘继强;张俐;于清
- 通讯作者:于清
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
痛风患者肾结石发病情况及其影响因素分析
- DOI:--
- 发表时间:--
- 期刊:山东医药
- 影响因子:--
- 作者:于清;李长贵;韩琳
- 通讯作者:韩琳
微博语料分词及标注方法初探
- DOI:--
- 发表时间:2013
- 期刊:新疆大学学报(自然科学版)
- 影响因子:--
- 作者:于清;阿里甫·库尔班
- 通讯作者:阿里甫·库尔班
一种基于集成学习的钓鱼网站检测方法
- DOI:--
- 发表时间:2019
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:余恩泽;努尔布力;于清
- 通讯作者:于清
玉米大斑病菌黑色素合成酶PKS基因克隆
- DOI:--
- 发表时间:--
- 期刊:植物生理与分子生物学研究
- 影响因子:--
- 作者:曹志艳;于清;温雷蕾;刘士伟;董金皋
- 通讯作者:董金皋
钢管高性能混凝土偏心受压构件力学性能研究
- DOI:--
- 发表时间:--
- 期刊:工程力学(EI收录)
- 影响因子:--
- 作者:于清;吴颖星;陶忠
- 通讯作者:陶忠
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}