维、哈、柯多文种信息检索技术研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61142004
项目类别：
专项基金项目
资助金额：
15.0万
负责人：
维尼拉·木沙江
依托单位：
新疆大学
学科分类：
F0211.信息检索与社会计算
结题年份：
2012
批准年份：
2011
项目状态：
已结题
起止时间：
2012-01-01 至2012-12-31

项目参与者：
吐尔地·托合提；艾尔肯·依米尔；买日旦·吾守尔；热依玛依·买买提；买买提依明·哈斯木；不海力且木·艾沙；赵丽红；薛中奇；
关键词：
多文种维柯文检索引擎语言模型哈

项目摘要

新疆少数民族语言多文种信息资源十分丰富、源远流长，随着多文种信息电子化和网络化迅速发展，少数民族文网站层出不穷，网上信息急剧增长。随之而来的问题是由于缺乏好的搜索引擎，快速、准确、全面、方便地搜索并获取有用的多文种网络信息是信息时代的要求，是面临的一个急待解决的重要问题。目前国内外的众多研究者已对信息检索技术展开了深入研究，提出了很多算法，但还没针对新疆多民族语言信息搜索技术展开任何系统地研究工作。本项目拟以语言模型为框架，以实现维、哈、柯文搜索引擎主要部件为目标，应用概率统计、数据挖掘、网络爬行、计算语言学等理论与技术，针对少数民族语言特点系统地研究维、哈、柯文词干析取、信息检索模型、检索结果排名模型和构建维、哈、柯文关联词典的构建等进行研究，解决实现高效、高性能维、哈、柯文搜索引擎的关键技术，实现维、哈、柯文搜索引擎原型。

结项摘要

以通用爬虫技术建立了维、哈、柯文Web信息获取平台，统计现有国内维、哈、柯文网站，建立了爬虫地址库,收集了大量Web实验数据。较深入的研究基于标签树的网页主题信息抽取方法，并利用基于Microsoft .Net 框架的标签树构造工具TidyNet开源工具来建立网页集的标签树，实现标签树元集的统计筛选算法，有效提取维、哈、柯文网页正文内容信息。针对网络文本的三种维吾尔文非Unicode或非标准Unicode编码情况，建立了字符编码转换规则表，并实现了基于规则的维吾尔文字符编码方法。针对维吾尔文传统分词方法的缺陷和不足，研究并实现了基于频繁模式挖掘的维吾尔文智能组词方法，与维吾尔文传统分词（以空格作为自然分隔符进行分词）完全不同的方法从文本中提取出语义完整而独立的语言单元（多词关联模式），并以这种关联模式来结构化表示文本。为了避免硬盘读写而加速搜索，我们将内存Hash作为数据结构，在内存建立倒排索引；为了避免内存臃肿问题的出现，我们提出一种基于语言模型的分词方法来大大缩小词汇表规模，从而不仅达到了压缩索引的目的，而在一定程度上解决了歧义问题,明显提高了查准率。查询排序方面，我们在传统TFIDF的基础上，用检索词的位置加权系数对权值进行调整，综合考虑检索词权重、检索词在文档中的位置、相互距离、顺序以及维吾尔文单词相似度等因素的贡献，进行了用户查询与Web文档相似度度量，明显提高了搜索引擎对查询结果的排序能力。对于双数组Trie树(Double-Array Trie)算法在构造方面提出了一种优化策略，即在用Trie树构造数组的时候，优先处理分支结点数更多的结点。基于该优化算法实现了一个维吾尔文词典管理程序，与利用其他索引机制的词典对比，利用优化的双数组Trie 树(Double-Array Trie)算法的词典不仅在查询速度上优于用其他索引机制的词典，而且存储数据的空间占用也比较小。