维、哈、柯多文种信息检索技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61142004
- 项目类别:专项基金项目
- 资助金额:15.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2012
- 批准年份:2011
- 项目状态:已结题
- 起止时间:2012-01-01 至2012-12-31
- 项目参与者:吐尔地·托合提; 艾尔肯·依米尔; 买日旦·吾守尔; 热依玛依·买买提; 买买提依明·哈斯木; 不海力且木·艾沙; 赵丽红; 薛中奇;
- 关键词:
项目摘要
新疆少数民族语言多文种信息资源十分丰富、源远流长,随着多文种信息电子化和网络化迅速发展,少数民族文网站层出不穷,网上信息急剧增长。随之而来的问题是由于缺乏好的搜索引擎,快速、准确、全面、方便地搜索并获取有用的多文种网络信息是信息时代的要求,是面临的一个急待解决的重要问题。目前国内外的众多研究者已对信息检索技术展开了深入研究,提出了很多算法,但还没针对新疆多民族语言信息搜索技术展开任何系统地研究工作。本项目拟以语言模型为框架,以实现维、哈、柯文搜索引擎主要部件为目标,应用概率统计、数据挖掘、网络爬行、计算语言学等理论与技术,针对少数民族语言特点系统地研究维、哈、柯文词干析取、信息检索模型、检索结果排名模型和构建维、哈、柯文关联词典的构建等进行研究,解决实现高效、高性能维、哈、柯文搜索引擎的关键技术,实现维、哈、柯文搜索引擎原型。
结项摘要
以通用爬虫技术建立了维、哈、柯文Web信息获取平台,统计现有国内维、哈、柯文网站,建立了爬虫地址库,收集了大量Web实验数据。较深入的研究基于标签树的网页主题信息抽取方法,并利用基于Microsoft .Net 框架的标签树构造工具TidyNet开源工具来建立网页集的标签树,实现标签树元集的统计筛选算法,有效提取维、哈、柯文网页正文内容信息。针对网络文本的三种维吾尔文非Unicode或非标准Unicode编码情况,建立了字符编码转换规则表,并实现了基于规则的维吾尔文字符编码方法。针对维吾尔文传统分词方法的缺陷和不足,研究并实现了基于频繁模式挖掘的维吾尔文智能组词方法,与维吾尔文传统分词(以空格作为自然分隔符进行分词)完全不同的方法从文本中提取出语义完整而独立的语言单元(多词关联模式),并以这种关联模式来结构化表示文本。为了避免硬盘读写而加速搜索,我们将内存Hash作为数据结构,在内存建立倒排索引;为了避免内存臃肿问题的出现,我们提出一种基于语言模型的分词方法来大大缩小词汇表规模,从而不仅达到了压缩索引的目的,而在一定程度上解决了歧义问题,明显提高了查准率。查询排序方面,我们在传统TFIDF的基础上,用检索词的位置加权系数对权值进行调整,综合考虑检索词权重、检索词在文档中的位置、相互距离、顺序以及维吾尔文单词相似度等因素的贡献,进行了用户查询与Web文档相似度度量,明显提高了搜索引擎对查询结果的排序能力。对于双数组Trie树(Double-Array Trie)算法在构造方面提出了一种优化策略,即在用Trie树构造数组的时候,优先处理分支结点数更多的结点。基于该优化算法实现了一个维吾尔文词典管理程序,与利用其他索引机制的词典对比,利用优化的双数组Trie 树(Double-Array Trie)算法的词典不仅在查询速度上优于用其他索引机制的词典,而且存储数据的空间占用也比较小。
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
基于频繁模式挖掘的维吾尔文智能组词方法
- DOI:--
- 发表时间:--
- 期刊:计算机应用
- 影响因子:--
- 作者:吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉
- 通讯作者:艾斯卡尔·艾木都拉
维吾尔文小规模Web搜索中一种高效的索引方法
- DOI:--
- 发表时间:--
- 期刊:International Review on Computers and Software
- 影响因子:--
- 作者:Turdi Tohti;Winira Musajan;Askar Hamdulla
- 通讯作者:Askar Hamdulla
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于统计专用字符的维、哈、柯文文种识别研究
- DOI:--
- 发表时间:2015
- 期刊:中文信息学报
- 影响因子:--
- 作者:买买提依明·哈斯木;吾守尔·斯拉木;维尼拉·木沙江;努尔麦麦提·尤鲁瓦斯
- 通讯作者:努尔麦麦提·尤鲁瓦斯
维哈柯汉多语种词典中关键词语言识别技术(英文)
- DOI:--
- 发表时间:2014
- 期刊:新疆大学学报(自然科学版)
- 影响因子:--
- 作者:买日旦·吾守尔;维尼拉·木沙江
- 通讯作者:维尼拉·木沙江
基于N 元模型的维吾尔文文本分类技术研究
- DOI:--
- 发表时间:2015
- 期刊:计算机应用研究
- 影响因子:--
- 作者:买买提依明·哈斯木;吾守尔·斯拉木;维尼拉·木沙江;努尔麦麦提·尤鲁瓦斯
- 通讯作者:努尔麦麦提·尤鲁瓦斯
基于语义串特征提取及融合评价的维吾尔文文本聚类
- DOI:--
- 发表时间:2017
- 期刊:中文信息学报
- 影响因子:--
- 作者:吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉
- 通讯作者:艾斯卡尔·艾木都拉
基于统计和浅层语言分析的维吾尔文语义串快速抽取
- DOI:--
- 发表时间:2017
- 期刊:中文信息学报
- 影响因子:--
- 作者:吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉
- 通讯作者:艾斯卡尔·艾木都拉
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
维尼拉·木沙江的其他基金
维吾尔、哈萨克、柯尔克孜文跨语言信息检索技术研究
- 批准号:61262063
- 批准年份:2012
- 资助金额:46.0 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}