柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61462055
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    44.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2018
  • 批准年份:
    2014
  • 项目状态:
    已结题
  • 起止时间:
    2015-01-01 至2018-12-31

项目摘要

As the research on Khmer language processing is very weak,research on Khmer named entity recognition plays an important role in the future research of the understanding of Chinese-Khmer bilingual language.Based on the Khmer language characteristics, Firstly, study on the annotation specification of Khmer word segmentation,part-of-speech and named entity to build a 500000-word-sized Khmer tagged corpus,on the basis of which,study on the Khmer named entity recognition methods based on hierarchical hybrid model of conditional random field and Markov logic network according to the characteristic that Khmer linguistic knowledge can be characterized with first-order logic rules,and study on the English-Khmer cross-lingual named entity knowledge transfer methods to get cross-lingual feature for the purpose of improving Khmer named entity recognition which lacks good discriminating features. Finally,study Chinese-Khmer comparable corpora building methods combining bilingual topic model and incremental clustering by means of knowledge dictionary ,according to the characteristic of Khmer news Web pages have the similar topic and content to the Chinese ones.The research achievement of the project will supply basic support and corpus resources to Khmer language processing and Chinese-Khmer machine translation.
柬埔寨语语言信息处理研究非常薄弱,研究柬埔寨语命名实体识别对于今后的汉-柬双语理解研究工作具有重要的支撑作用。汉语-柬埔寨语双语语料资源构建是汉柬双语理解的必备资源。本课题根据柬埔寨语的特点,首先研究柬埔寨语分词、词性标注与命名实体标注规范,构建含50万单词的柬埔寨语词法标注语料库,在此基础上,根据柬埔寨语言学知识能很好地用一阶逻辑规则描述的特点,研究基于条件随机场与马尔科夫逻辑网双层模型的柬埔寨语命名实体识别方法,研究英语-柬埔寨语跨语言命名实体知识转移方法,引入跨语言特征以促进缺乏可区分特征的柬埔寨语命名实体识别工作。最后结合汉柬新闻网页主题相关、内容相近的特点,借助于知识词典,研究通过融合汉柬双语主题建模和增量聚类获取汉-柬双语可比较语料的方法。项目研究成果为柬埔寨语信息处理、汉语-柬埔寨语机器翻译提供底层支持和数据支撑。

结项摘要

柬埔寨语命名实体识别对于柬埔寨语信息处理、汉-柬双语理解研究工作具有重要的支撑作用,汉-柬双语语料资源是汉柬双语理解的必备资源。本课题开展柬语词法标注语料库构建方法、柬语命名实体识别方法、汉-柬双语可比较语料获取方法研究。课题研究取得了多项创新性研究成果:在国内外期刊发表论文14篇,已录用未发表2篇,会议论文7篇,其中EI收录7篇,授权发明专利1项,申请发明专利受理6项,登记软件著作权5项。课题构建了50万余词的柬埔寨语词法语料标注库。. 课题定义了切分、词性、命名实体语料库标注规范。提出一种基于层叠条件随机场模型的自动分词及词性标注方法,为柬埔寨语命名实体识别研究奠定了基础。.针对柬埔寨语命名实体识别问题,提出了一种融合柬埔寨语实体特征的约束条件随机场模型的命名实体识别方法。为了进一步提高识别性能,引入英柬跨语言特征的柬埔寨语命名实体识别方法,取得了较好效果。. 针对汉语-柬埔寨语可比较语料获取问题,研究了基于双语词典的柬汉双语LDA模型的构建方法,在缺乏双语平行文档的情况下,该双语LDA模型的主题挖掘效果较好。为了解决传统LDA中词袋模型不能考虑上下文信息的缺点,提出了一种基于短语的柬汉双语LDA主题模型,实验结果表明该模型比传统双语LDA模型的结果困惑度更低,主题预测能力更强。提出一种融合发布时间要素、实体要素和双语主题分布的可比语料获取方法,取得了较好的效果。针对汉柬可比语料平行片段抽取问题,提出了基于Dirichlet过程的可比语料平行片段抽取的方法。 . 针对柬埔寨语词法标注语料库构建问题,首先利用基于专有名词的约束条件随机场进行命名实体识别,然后对结果进行人工修正,加入训练语料,迭代以上过程,最终构建了包含约50万词的柬埔寨语分词、词性、命名实体标注的语料库。. 课题研究针对柬埔寨语词法语料库构建、柬埔寨语命名实体识别、汉语-柬埔寨语可比较语料获取问题提出了新颖有效的方法,为进一步开展汉语-柬埔寨语双语信息处理奠定了基础。

项目成果

期刊论文数量(15)
专著数量(0)
科研奖励数量(0)
会议论文数量(8)
专利数量(6)
基于特征相似度的可比语料挖掘汉柬命名实体等价对
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    计算机与数字工程
  • 影响因子:
    --
  • 作者:
    徐璐;严馨;夏青;周枫;莫源源
  • 通讯作者:
    莫源源
基于最大熵模型的英柬双语平行句对获取
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    山西大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    严馨;王若兰;余正涛;潘丽同;郭剑毅
  • 通讯作者:
    郭剑毅
基于短语的柬汉双语 LDA 主题模型构建方法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机工程与科学
  • 影响因子:
    --
  • 作者:
    谢庆;严馨;诺宇;徐广义;周枫;郭剑毅
  • 通讯作者:
    郭剑毅
基于Tri-training的柬埔寨语组织机构名识别
  • DOI:
    --
  • 发表时间:
    2018
  • 期刊:
    软件导刊
  • 影响因子:
    --
  • 作者:
    谢俊;严馨;王若兰;周枫;李思远
  • 通讯作者:
    李思远
Khmer-Chinese bilingual LDA topic model based on dictionary
基于字典的高汉双语LDA主题模型
  • DOI:
    10.1504/ijcsm.2019.10025672
  • 发表时间:
    --
  • 期刊:
    International Journal of Computing Science and Mathematics
  • 影响因子:
    0.8
  • 作者:
    Xiaohui Liu;Xin Yan;Guangyi Xu;Zhengtao Yu;Guangshun Qing
  • 通讯作者:
    Guangshun Qing

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

融合实体特性识别越南语复杂命名实体的混合方法
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    智能系统学报
  • 影响因子:
    --
  • 作者:
    刘艳超;郭剑毅;余正涛;周兰江;严馨;陈秀琴
  • 通讯作者:
    陈秀琴
基于半监督图聚类的项目主题模型构建方法
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    计算机科学
  • 影响因子:
    --
  • 作者:
    石林宾;余正涛;严馨;宋海霞;洪旭东
  • 通讯作者:
    洪旭东
结合词向量和Bootstrapping的领域实体上下位关系获取与组织
  • DOI:
    10.11896/j.issn.1002-137x.2018.01.010
  • 发表时间:
    2018
  • 期刊:
    计算机科学
  • 影响因子:
    --
  • 作者:
    马晓军;郭剑毅;线岩团;毛存礼;严馨;余正涛
  • 通讯作者:
    余正涛
基于标签传播算法的新词情感极性识别
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    计算机科学与探索
  • 影响因子:
    --
  • 作者:
    余正涛;严馨;高盛祥;线岩团
  • 通讯作者:
    线岩团
结合词向量和Bootstrapping的领域实体上下位关系获取与组织
  • DOI:
    10.11896/j.issn.1002-137x.2018.01.010
  • 发表时间:
    2018
  • 期刊:
    计算机科学
  • 影响因子:
    --
  • 作者:
    马晓军;郭剑毅;线岩团;毛存礼;严馨;余正涛
  • 通讯作者:
    余正涛

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码