基于潜在语义对偶空间的跨语言信息检索理论和算法研究
项目介绍
AI项目解读
基本信息
- 批准号:60963014
- 项目类别:地区科学基金项目
- 资助金额:22.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2012
- 批准年份:2009
- 项目状态:已结题
- 起止时间:2010-01-01 至2012-12-31
- 项目参与者:左家莉; 罗远胜; 吴根秀; 王晓庆; 万中英; 吴水秀; 吴福英; 罗文兵; 吴世勇;
- 关键词:
项目摘要
因特网资源的多语言性和用户对母语和非母语熟悉程度的差异性,使跨语言信息检索成为研究热点。在跨语言的信息检索和分类中,存在多词一义和一词多义、翻译歧义和数据高维性等问题。在检索模型中表现为特征的多重相关,进而影响模型检索性能;在分类模型中表现为自变量间的多重相关性、数据高维性,将影响文本分类性能。如何有效消除这些影响,成为提高跨语言的检索和分类性能的关键。本课题拟应用典型相关分析、偏最小二乘等统计理论研究新的模型,将多语言文档看成从不同侧面描述同一对象形成的不同视图,综合考虑语言的语义特性,通过构造潜在语义对偶空间,建立词的语义关系、文档的语义关系及其结构关系和双语间的语义对应关系;在该统一框架下研究基于潜在语义对偶空间的跨语言的检索模型、文本分类/聚类模型和维数约简方法;进一步研究基于潜在语义对偶空间的多语言信息检索模型,并在理论上证明和实验上验证新模型和方法的有效性。
结项摘要
本课题运用偏最小二乘和典型相关分析等统计理论研究,将多语言文档看成从不同侧面描述同一对象形成的不同视图,综合考虑语言的语义特性,通过构造潜在语义对偶空间,建立词的语义关系、文档的语义关系及其结构关系和双语间的语义对应关系,提出了一种基于潜在语义空间的跨语言信息检索框架。在该统一框架下,研究了基于潜在语义对偶空间的跨语言的检索模型、文本分类/聚类模型和维数约简方法。.课题组成员共发表相关论文29篇,成功承办2012年第八届全国信息检索学术会议和2012年中国中文信息学会战略研讨会,培养15硕、博士研究生,邀请加拿大蒙特利尔大学聂建云教授、日本东京大学教授胡振江教授讲学和交流。具体研究工作有:. (1)构建了用于跨语言信息检索评测需要的中英双语平行语料库:9161篇中英文CLIR评测语料库,含查询和相关性判断;9081篇中英跨语言文本分类评测语料库;使用Google翻译构建TREC9中英双语平行语料库;25000对平行文档组成的中英双语平行语料库。. (2)基于潜在语义对偶空间的跨语言信息检索框架:将双语文档集看成是不同语言描述同一对象形成的不同视图,通过建立刻画语言语义对应关系(在CLIR中主要体现为不同语义级的语言翻译对应关系)的潜在语义对偶空间(描述客观对象的抽象概念空间)反映它们的统计依赖关系。. (3)基于双语主题空间的CLIR和CLTC模型:将双语文档对看作同一内容的两种语言表达,由双语平行语料库构造每种语言的潜在语义空间,提出双语偏最小二乘主题相关模型以及相关的跨文本分类模型。. (4)基于潜在语义对偶空间的信息检索系列模型:将源语言文档矩阵X和目标语言文档矩阵Y看作一种非对称的预测分析关系,由此提出基于潜在语义对偶空间的跨语言信息检索、跨语言文本模型,并将其用于多语言的信息检索。. (5)提出一种基于特征加权的半监督单语言和跨语言聚类方法。. (6)相关单语言信息检索和文本分类的研究。
项目成果
期刊论文数量(25)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(0)
基于特征加权的半监督聚类研究
- DOI:--
- 发表时间:--
- 期刊:广西师范大学学报(自然科学版)
- 影响因子:--
- 作者:黎佳;王明文;何世柱;柯丽
- 通讯作者:柯丽
Cross-lingual Information Retrieval model based on Bilingual Topic Correlation
基于双语主题关联的跨语言信息检索模型
- DOI:--
- 发表时间:--
- 期刊:Journal of Computational Information Systems
- 影响因子:--
- 作者:Yuansheng Luo;Mingwen Wang;Le Zhongjia
- 通讯作者:Le Zhongjia
An Improved kNN Text Categorization Algorithm based on Cluster Distribution
一种改进的基于聚类分布的kNN文本分类算法
- DOI:--
- 发表时间:--
- 期刊:Journal of Computational Information Systems
- 影响因子:--
- 作者:Yuansheng Luo;Mingwen Wang;Le Zhongjian;Zhang Huawei
- 通讯作者:Zhang Huawei
基于Markov网络团的信息检索扩展模型
- DOI:--
- 发表时间:--
- 期刊:山东大学学报(理学版)
- 影响因子:--
- 作者:石松;王明文;涂伟;何世柱
- 通讯作者:何世柱
基于随机游走和聚类平滑的协同过滤推荐算法
- DOI:--
- 发表时间:--
- 期刊:广西师范大学学报(自然科学版)
- 影响因子:--
- 作者:周军军;王明文;何世柱;石松
- 通讯作者:石松
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
结合句子级别检索的信息检索模型
- DOI:--
- 发表时间:2016
- 期刊:中文信息学报
- 影响因子:--
- 作者:左家莉;王明文;吴水秀;万剑怡
- 通讯作者:万剑怡
具有加权顾前势的交通流模型
- DOI:--
- 发表时间:2014
- 期刊:Acta Physica Sinica
- 影响因子:1
- 作者:郑伟范;张继业;王明文;唐东明
- 通讯作者:唐东明
基于核偏最小二乘分类的垃圾邮件过滤
- DOI:--
- 发表时间:--
- 期刊:中文信息学报
- 影响因子:--
- 作者:王鹏鸣;岑芳明;王明文;戴玉娟
- 通讯作者:戴玉娟
基于子词的句子级别神经机器翻译的译文质量估计方法
- DOI:--
- 发表时间:2020
- 期刊:厦门大学学报(自然科学版)
- 影响因子:--
- 作者:李培芸;翟煜锦;项青宇;李茂西;裘白莲;罗文兵;王明文
- 通讯作者:王明文
语义耦合相关的判别式跨模态哈希学习算法
- DOI:--
- 发表时间:2018
- 期刊:计算机学报
- 影响因子:--
- 作者:严双咏;刘长红;江爱文;叶继华;王明文
- 通讯作者:王明文
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
王明文的其他基金
无感情景下教师多模态教学言行的统一表示与匹配研究
- 批准号:62266023
- 批准年份:2022
- 资助金额:34.00 万元
- 项目类别:地区科学基金项目
无感情景下教师多模态教学言行的统一表示与匹配研究
- 批准号:
- 批准年份:2022
- 资助金额:34 万元
- 项目类别:地区科学基金项目
基于概率度量空间的词表示及词语相关性度量研究
- 批准号:61876074
- 批准年份:2018
- 资助金额:62.0 万元
- 项目类别:面上项目
基于潜在语义对偶空间的新词翻译自动识别方法研究
- 批准号:61462045
- 批准年份:2014
- 资助金额:45.0 万元
- 项目类别:地区科学基金项目
文本自动分类中样本重要性模型及应用研究
- 批准号:61272212
- 批准年份:2012
- 资助金额:70.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}