维、哈、柯多文种信息检索技术研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61142004
  • 项目类别:
    专项基金项目
  • 资助金额:
    15.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2012
  • 批准年份:
    2011
  • 项目状态:
    已结题
  • 起止时间:
    2012-01-01 至2012-12-31
  • 项目参与者:
    吐尔地·托合提; 艾尔肯·依米尔; 买日旦·吾守尔; 热依玛依·买买提; 买买提依明·哈斯木; 不海力且木·艾沙; 赵丽红; 薛中奇;
  • 关键词:

项目摘要

新疆少数民族语言多文种信息资源十分丰富、源远流长,随着多文种信息电子化和网络化迅速发展,少数民族文网站层出不穷,网上信息急剧增长。随之而来的问题是由于缺乏好的搜索引擎,快速、准确、全面、方便地搜索并获取有用的多文种网络信息是信息时代的要求,是面临的一个急待解决的重要问题。目前国内外的众多研究者已对信息检索技术展开了深入研究,提出了很多算法,但还没针对新疆多民族语言信息搜索技术展开任何系统地研究工作。本项目拟以语言模型为框架,以实现维、哈、柯文搜索引擎主要部件为目标,应用概率统计、数据挖掘、网络爬行、计算语言学等理论与技术,针对少数民族语言特点系统地研究维、哈、柯文词干析取、信息检索模型、检索结果排名模型和构建维、哈、柯文关联词典的构建等进行研究,解决实现高效、高性能维、哈、柯文搜索引擎的关键技术,实现维、哈、柯文搜索引擎原型。

结项摘要

以通用爬虫技术建立了维、哈、柯文Web信息获取平台,统计现有国内维、哈、柯文网站,建立了爬虫地址库,收集了大量Web实验数据。较深入的研究基于标签树的网页主题信息抽取方法,并利用基于Microsoft .Net 框架的标签树构造工具TidyNet开源工具来建立网页集的标签树,实现标签树元集的统计筛选算法,有效提取维、哈、柯文网页正文内容信息。针对网络文本的三种维吾尔文非Unicode或非标准Unicode编码情况,建立了字符编码转换规则表,并实现了基于规则的维吾尔文字符编码方法。针对维吾尔文传统分词方法的缺陷和不足,研究并实现了基于频繁模式挖掘的维吾尔文智能组词方法,与维吾尔文传统分词(以空格作为自然分隔符进行分词)完全不同的方法从文本中提取出语义完整而独立的语言单元(多词关联模式),并以这种关联模式来结构化表示文本。为了避免硬盘读写而加速搜索,我们将内存Hash作为数据结构,在内存建立倒排索引;为了避免内存臃肿问题的出现,我们提出一种基于语言模型的分词方法来大大缩小词汇表规模,从而不仅达到了压缩索引的目的,而在一定程度上解决了歧义问题,明显提高了查准率。查询排序方面,我们在传统TFIDF的基础上,用检索词的位置加权系数对权值进行调整,综合考虑检索词权重、检索词在文档中的位置、相互距离、顺序以及维吾尔文单词相似度等因素的贡献,进行了用户查询与Web文档相似度度量,明显提高了搜索引擎对查询结果的排序能力。对于双数组Trie树(Double-Array Trie)算法在构造方面提出了一种优化策略,即在用Trie树构造数组的时候,优先处理分支结点数更多的结点。基于该优化算法实现了一个维吾尔文词典管理程序,与利用其他索引机制的词典对比,利用优化的双数组Trie 树(Double-Array Trie)算法的词典不仅在查询速度上优于用其他索引机制的词典,而且存储数据的空间占用也比较小。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
基于频繁模式挖掘的维吾尔文智能组词方法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机应用
  • 影响因子:
    --
  • 作者:
    吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉
  • 通讯作者:
    艾斯卡尔·艾木都拉
维吾尔文小规模Web搜索中一种高效的索引方法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    International Review on Computers and Software
  • 影响因子:
    --
  • 作者:
    Turdi Tohti;Winira Musajan;Askar Hamdulla
  • 通讯作者:
    Askar Hamdulla

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于统计专用字符的维、哈、柯文文种识别研究
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    买买提依明·哈斯木;吾守尔·斯拉木;维尼拉·木沙江;努尔麦麦提·尤鲁瓦斯
  • 通讯作者:
    努尔麦麦提·尤鲁瓦斯
维哈柯汉多语种词典中关键词语言识别技术(英文)
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    新疆大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    买日旦·吾守尔;维尼拉·木沙江
  • 通讯作者:
    维尼拉·木沙江
基于N 元模型的维吾尔文文本分类技术研究
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    计算机应用研究
  • 影响因子:
    --
  • 作者:
    买买提依明·哈斯木;吾守尔·斯拉木;维尼拉·木沙江;努尔麦麦提·尤鲁瓦斯
  • 通讯作者:
    努尔麦麦提·尤鲁瓦斯
基于语义串特征提取及融合评价的维吾尔文文本聚类
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉
  • 通讯作者:
    艾斯卡尔·艾木都拉
基于统计和浅层语言分析的维吾尔文语义串快速抽取
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉
  • 通讯作者:
    艾斯卡尔·艾木都拉

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

维尼拉·木沙江的其他基金

维吾尔、哈萨克、柯尔克孜文跨语言信息检索技术研究
  • 批准号:
    61262063
  • 批准年份:
    2012
  • 资助金额:
    46.0 万元
  • 项目类别:
    地区科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码