海量文本数据下实体智能近似匹配的关键技术研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61702346
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    22.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0202.系统软件、数据库与工业软件
  • 结题年份:
    2020
  • 批准年份:
    2017
  • 项目状态:
    已结题
  • 起止时间:
    2018-01-01 至2020-12-31

项目摘要

Entity approximate matching, as an essential operation in textual data mining, is widely applied to many areas such as information retrieval, entity identification, data cleaning and data integration. With the continuous development of information technology, text data grew rapidly. The diversity of domains and characteristics of the data results in complicated situations of entity matching. The existing entity approximate matching methods have defects and shortcomings in the degree of intelligence, matching quality and matching scale. This project studies the key techniques of intelligent entity approximation matching under massive text data, and aims to explore the inherent and objective rules of entity matching in massive data and improve the quality. The main research points include the analysis of the characteristics of massive text data, the analysis of entity approximate matching in multi-domain text data, the multi-angle based analysis of entity approximate matching, the construction of knowledge model of entity approximate matching, the feedback and automatic learning mechanism with less human intervention, the performance optimization and storage optimization methods of the intelligent entity approximate matching under massive data. The research results of this project will provide a good support for the data analysis and processing under massive text data, promote intelligent text processing, and improve the quality of massive data, thus have promising prospects.
实体近似匹配作为文本数据挖掘中的一个基本操作,被广泛的应用于信息检索、实体识别、数据清洗与数据集成等诸多领域。随着信息技术的不断发展,文本数据飞速增长。数据的领域和特点多种多样,导致数据中的实体近似匹配情况错综复杂。现有的实体近似匹配方法在智能化程度、匹配的质量和匹配规模上存在缺陷和不足。本项目针对海量文本数据下的实体智能近似匹配的关键技术进行研究,旨在深度挖掘海量数据中实体近似匹配的内在的、客观的规律,提高近似匹配质量。主要的研究内容包括:海量文本数据的特征分析、多领域文本数据中实体近似匹配情况分析、基于多角度的实体近似匹配分析、实体近似匹配的知识模型构建、少人工干预下的反馈与自动学习机制、海量规模数据下的实体智能近似匹配的性能优化与存储优化方法等。本项目的研究成果将为海量文本数据下的数据分析和处理提供良好的支撑,达到推动智能化文本处理以及提升海量数据的质量的目的,具有广阔的前景。

结项摘要

本课题围绕海量文本数据下智能实体近似匹配问题开展研究。面对海量的不断增长的半结构化和无结构化文本数据,现有方法大多存在着依赖人工选择匹配条件,实体近似匹配的质量不高,缺乏有效的反馈和学习机制,以及匹配规模和效率上面临挑战等方面的问题。本项目研究的总体目标是突破传统实体匹配的技术瓶颈,提高实体匹配的智能化水平。课题组针对现有方法中存在的问题,研究了海量文本数据下的智能实体识别、文本分类、实体关系挖掘、性能优化等方面的关键技术。具体研究内容包括:1) 高质量的支持容错的文本实体挖掘方法,通过构建支持容错的实体识别模型,最大化实体全局识别概率, 提高实体识别的质量。 2) 提出面向文本数据的自动质量检测与数据清洗方法,兼顾考虑实体拼写正确性和上下文环境中的关联程度,来提高文本数据清洗的质量。 3) 提出了基于范围的文本分类卷积神经网络,来学习和捕获实体之间的局部连接高维特性,实现更加灵活而深层的实体信息挖掘。 4) 提出了基于动态规划和树状索引的优化匹配策略和索引方法,来加速实体匹配的效率,减少时间开销。在项目资助期间,这四方面的研究计划均取得了一些成果, 基本上实现了在大规模文本数据上的智能实体近似匹配。整体来看,通过三年的努力,已完成项目目标。

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(1)
会议论文数量(7)
专利数量(1)
基于元学习的推荐算法选择优化框架实证
  • DOI:
    10.16208/j.issn1000-7024.2020.06.018
  • 发表时间:
    2020
  • 期刊:
    计算机工程与设计
  • 影响因子:
    --
  • 作者:
    任义;迟翠容;单菁;王佳英
  • 通讯作者:
    王佳英
Large-Scale Text Classification Using Scope-Based Convolutional Neural Network: A Deep Learning Approach
使用基于范围的卷积神经网络进行大规模文本分类:一种深度学习方法
  • DOI:
    10.1109/access.2019.2955924
  • 发表时间:
    2019
  • 期刊:
    IEEE Access
  • 影响因子:
    3.9
  • 作者:
    Jiaying Wang;Yaxin Li;Jing Shan;Jinling Bao;Chuanyu Zong;Liang Zhao
  • 通讯作者:
    Liang Zhao
High quality error-tolerant phrase mining on text corpus
文本语料库上的高质量容错短语挖掘
  • DOI:
    10.1016/j.eswa.2020.114557
  • 发表时间:
    2021-06
  • 期刊:
    Expert Systems with Applications
  • 影响因子:
    8.5
  • 作者:
    Wang J.;Shan J.;Santos O.E.;Bao J.
  • 通讯作者:
    Bao J.

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

The study of structural and optical properties of (Eu, La, Sm) codoped ZnO nanoparticles via a chemical route
通过化学途径研究(Eu,La,Sm)共掺杂ZnO纳米颗粒的结构和光学性质
  • DOI:
    10.1016/j.matchemphys.2017.03.010
  • 发表时间:
    2017-06
  • 期刊:
    Materials Chemistry and Physics
  • 影响因子:
    4.6
  • 作者:
    郎集会;张旗;韩强;方月;王佳英;刘晓燕;李秀艳;刘艳清;王丹丹;杨景海
  • 通讯作者:
    杨景海
障碍空间中保持位置隐私的最近邻查询方法
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    计算机研究与发展
  • 影响因子:
    --
  • 作者:
    朱怀杰;王佳英;王斌;杨晓春
  • 通讯作者:
    杨晓春
支持起源回溯的最小化标识属性传播
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机与数字工程
  • 影响因子:
    --
  • 作者:
    王斌;王佳英;杨晓春
  • 通讯作者:
    杨晓春
水滑石与类水滑石的催化性能研究
  • DOI:
    10.16862/j.cnki.issn1674-3873.2017.02.006
  • 发表时间:
    2017
  • 期刊:
    吉林师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    郎集会;张思琪;李天顺;王佳英;孙雨婷
  • 通讯作者:
    孙雨婷
一种支持约束关系的高效的行程规划算法
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    小型微型计算机系统
  • 影响因子:
    --
  • 作者:
    鲍金玲;杨晓春;王斌;王佳英
  • 通讯作者:
    王佳英

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码