基于Ontology的藏文语料库检索关键技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61262053
- 项目类别:地区科学基金项目
- 资助金额:45.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2016
- 批准年份:2012
- 项目状态:已结题
- 起止时间:2013-01-01 至2016-12-31
- 项目参与者:赵颖; 多杰卓玛; 尼玛才让; 才让三智; 羊本才让; 德吉梅朵; 扎西草;
- 关键词:
项目摘要
The realization of Tibetan corpus retrieving based on Ontology could benefit the studies of Tibetan linguistics, the construction of various the knowledge bases as well as benefit Tibetan searching engines, Tibetan-Chinese Mechine Translation, Textual Information Extraction and so on. This programe uses the Knowledge Engineering and Learning with mechines to study and build the corpuses of Tibetan characters, words and syllables. To study and build a corpus of Tibetan Function Words, Predicate Semantic Mapping Library, Tibetan words and semantic framework of knowledge in the field or entity against the Tibetan Function Words in the sentences with the predicates playing a role of syntactic structure and semantic bridging. Tibetan word segmentation tagging system based on agglutinated function words recognition rules and CRF(Conditional random fields) model should be completed. Thus, Ontology with knowledge resource can be shared and reused, it has extended features as well. To conbine Ontology and Tibetan Information retrieval to solve the problem of breaking down of the characters, syllables and words in Tibetan conpletely. To complete a new retrieval system in Tibetan to meet the retrieval needs of different users through the high conceptual ability to understand the semantic retrieval.
基于Ontology的藏文语料库个性化检索的实现有利于藏语语言学研究和各种知识库的建设、藏文搜索引擎、藏汉机器翻译、文本信息抽取等。本项目采用知识工程与机器学习相结合的方法,研究和建立藏文字符构件、字符、字丁、音节分类库,针对藏文虚词在句子中同谓词扮演句法架构和语义桥接的角色,研究和构建藏文虚词知识库、谓词语义映射关系库、藏文概念语义框架等领域知识体系或实体,并完成基于虚词黏着识别规则和CRF (Conditional random fields,条件随机域)模型的藏文分词标注系统,充分利用Ontology具有知识资源共享和重复使用、可扩展的特点,将Ontology与藏文信息检索有机结合起来,从系统底层解决藏文检索中字符、字丁、音节、词汇等常被"肢解"的问题,从高层实现具有概念理解能力的语义检索技术,从而完成一个藏文新型检索系统,以满足不同用户的个性化检索需求。
结项摘要
基于Ontology的信息检索是一个前沿性研究课题,在类似藏语这样的小语种迈向语义web有很重要的支撑意义。通过实施本课题,我们获得了面向信息处理的语言学意义上藏语的方方面面的知识,如,藏文字符、字丁、单字音节、双字音节、三字音节、四字音节以及总音节的数量(9111个)和频度、累计频率、信息熵等,也第一次摸清了藏文的使用情况或字数(注:以前不知道目前使用的藏文字数有多少),这在语言教学和词典编纂诸领域也有重要的参考价值,数据化的这些语言知识成为一个整体的可循环利用的结构化的知识库,在藏语智能信息处理中具有基础性作用和意义,是藏文智能化必不可少的一个环节。.与此同时,作为主要参加人积极参与了《信息处理用藏文分词工程规范》、《信息处理用藏文词类分类标记规范》2项关涉藏文自动分词和语言建模的基础标准,该2项标准几番讨论修订目前已经定稿、上报,只待最后通过。并且,基于该2项标准我们建设了规模为113万词次的藏文分词及词性标注语料库,训练出基于CRF的语言模型,并提出了粘着性虚词切分规则,研究建设了35万词种的分词词表和18万带词性的标注词表,研制了较高品质的藏文自动分词系统,已经达到应用水平,进行应用转换后应用于藏文全文检索——云藏搜索引擎系统,突破自动分词应用瓶颈,这在藏文信息处理领域尚属首次。.藏文同义词框架语义知识库的建设是本课题的另一重要内容,辞藻和同义词为主的框架体系的研究建设虽属领域本体,但在应用中仍然发挥了较好的作用,这也是本课题的一个亮点。领域本体的成功,对于下一步研制藏文通用本体积累了一定的经验和知识,不管是藏文本体理论研究还是应用研究都具有重要的科学意义。
项目成果
期刊论文数量(10)
专著数量(1)
科研奖励数量(1)
会议论文数量(1)
专利数量(0)
藏语言的定性分析与定量研究
- DOI:--
- 发表时间:2015
- 期刊:西藏大学学报(社会科学版)
- 影响因子:--
- 作者:格桑多吉;扎西加
- 通讯作者:扎西加
藏语判断动词yin和red的应用研究
- DOI:--
- 发表时间:2013
- 期刊:西北民族大学学报(自然科学版)
- 影响因子:--
- 作者:昂青才旦;冷本扎西
- 通讯作者:冷本扎西
基于FUG的藏语句法形式化描述
- DOI:--
- 发表时间:2014
- 期刊:中文信息学报
- 影响因子:--
- 作者:扎西加;多拉
- 通讯作者:多拉
词汇计量与史诗诸要素的解析_以语料库方法解构格萨尔史诗之_霍岭
- DOI:--
- 发表时间:2014
- 期刊:西藏大学学报(社会科学版)
- 影响因子:--
- 作者:多拉;扎西加
- 通讯作者:扎西加
面向信息处理的藏文字词统计分析设计
- DOI:--
- 发表时间:2015
- 期刊:电子技术与软件工程
- 影响因子:--
- 作者:扎西加;多拉
- 通讯作者:多拉
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于现代语言学视角的藏语藻饰词语素构式解析
- DOI:--
- 发表时间:2021
- 期刊:西藏大学学报(社会科学版)
- 影响因子:--
- 作者:多拉;冷本扎西
- 通讯作者:冷本扎西
基于UFG的藏语句法形式化描述
- DOI:--
- 发表时间:2014
- 期刊:中文信息学报
- 影响因子:--
- 作者:扎西加;多拉
- 通讯作者:多拉
从语言的价值视角探讨藏语功能性虚词的分类与识别
- DOI:--
- 发表时间:2019
- 期刊:中国藏学
- 影响因子:--
- 作者:多拉;仁青卓么;冷本扎西
- 通讯作者:冷本扎西
藏语同义藻饰词的句法修饰功能探究
- DOI:--
- 发表时间:2020
- 期刊:青海民族大学学报
- 影响因子:--
- 作者:冷本扎西;多拉
- 通讯作者:多拉
藏语依存树库构建的理论与方法探析
- DOI:--
- 发表时间:2015
- 期刊:西藏大学学报
- 影响因子:--
- 作者:扎西加;多拉
- 通讯作者:多拉
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
多拉的其他基金
基于大规模语料库的藏语预训练语言模型研究
- 批准号:
- 批准年份:2022
- 资助金额:33 万元
- 项目类别:地区科学基金项目
面向语言处理的藏语概念框架语义知识库构建研究
- 批准号:61866034
- 批准年份:2018
- 资助金额:38.0 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}