面向特定领域的知识图谱构建与应用关键技术研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
U1836118
项目类别：
联合基金项目
资助金额：
65.0万
负责人：
程军军
依托单位：
中国信息安全测评中心
学科分类：
F0606.自然语言处理
结题年份：
2021
批准年份：
2018
项目状态：
已结题
起止时间：
2019-01-01 至2021-12-31

项目参与者：
刘宇；罗景；李维杰；高峰；刘林；胡青；徐芳芳；
关键词：
机器阅读理解知识图谱特定领域实体关系抽取

项目摘要

In recent years, the Knowledge Graph has received extensive attention from academia and industry, mainly due to the fact that it can describe the complex relationships between the entities in the objective world with a form close to human cognition. At the same time, the machine reading comprehension technology based on the deep neural network model has a fast development recently, and it begins to obtain an increased accuracy in general domain Q&A tasks when combining the external knowledge. However, in the specific domain (such as Internet-based terrorism information analysis and tracking), there are no mature Knowledge Graph products. Faced with a large number of real-time external open data mainly from internet news articles, there is also no effective technical support for text semantic extraction, clue mining, and threat assessment of key entities. It has great significance to China's domestic security, overseas interest security, and the strategic safety of the One Belt One Road, when we have the ability to grasp terrorism information, track terrorist organization trends, and identify threatened terrorist. Above all, our team try to take a deep research in the terrorism domain in order to tackle above problems, by means of our own business accumulation and academic advantages. Specifically, we will pay more attentions on the following four aspects based on the MRC models and Knowledge Graph technology: domain Knowledge Graph, domain task customization and solution, efficient semantic data pipeline, and domain test dataset. We always believe that our research will help the domain work become more automatic, intelligent, and efficient.

知识图谱在近几年受到了学术界和产业界的广泛关注，主要得益于其可以以接近人类认知的形式描述客观世界实体间的复杂关系。与此同时，近期兴起的机器阅读理解技术在结合外部知识后，在通用领域的QA问答任务中的性能有了较大提升。但在互联网涉恐信息分析与跟踪领域，目前尚无较为成熟的知识图谱产品，面对大量的实时外部开放数据，缺乏有效的针对语义抽取、线索挖掘和威胁评估等业务工作的技术支撑。考虑到开展涉恐领域知识图谱的相关工作对于我国国内安全、海外利益安全以及一带一路大战略安全都具有非常重要的意义，项目组拟以自身业务积累和学术优势，尝试深入结合涉恐领域需求和领域特色，借助MRC模型和知识图谱相关技术，从领域知识图谱构造、领域任务定制与求解、高效语义数据管道设计以及测试数据集生成四个方面开展深入研究，以达到领域大规模文本语义抽取自动化、业务流程知识化、线索挖掘智能化的业务目标，有效提升业务效率和工作水平。

结项摘要

近期兴起的机器阅读理解技术在结合外部知识后，能较好实现通用领域QA。但在网络涉恐信息分析与跟踪领域尚无相关成熟应用。开展涉恐领域知识图谱的相关工作对于我国战略安全具有重大意义。项目组结合涉恐领域需求和特色，从领域知识构建、问题求解、知识动态推理以及评测数据集生成4方面开展研究。.在知识构建方面，项目组提出实体对校验、实体关系抽取、事件抽取等领域知识构建方案。结果表明，实体对校验任务可提升关系抽取查准率7.1%，查全率4.0%，F1值提升5.6%；规则泛化后可进一步提升关系抽取准确率，平均提升了F1值7.67%；课题组采用基于层级Blocking方法对新闻事件属性进行抽取，并能比传统方法更准确的识别出重复新闻事件。.在问题求解方面，项目组提出了结合预训练与知识图谱的KG-ATT-BERT模型，对问题和知识建立互注意力机制，从而丰富句子的语义信息，提升了阅读理解模型的EM指标2.16%，F1约0.7%。此外，通过构建领域特殊词表，在模型中加入问题和新闻文本的双向注意力，并通过集束搜索策略生成答案。在ARCMRC数据集上的对比试验表明，AT-MT5在ROUGE-L指标上达到57.10%，性能明显优于BART和GPT-2模型。在威胁评估方面，采用面向复杂网络的多层领域模型对重要节点和社区进行发现，并在真实数据集上验证其有效性。.在动态知识推理方面，项目组提出面向确定性推理场景的前向后向链式语义数据流推理平方案，实现32K三元组每秒吞吐量下，查询延迟小于1秒。同时，面向不确定性推理场景提出基于联合嵌入模型的多语义空间推理方案，实现64K三元组每秒吞吐量下查询延迟为200ms以内，MRR值0.546，HIT@10值为66.4。.在领域数据集构建方面，项目组构建涉恐事件库约为19万条，恐怖组织约2000多个，人物超过3000个。其中，项目组采集报道文本、经过聚合和标注后入库的事件数为2900余条。在此基础上，构建面向机器阅读理解的测评数据集SecMRC，包含2000条新闻文本，9300个问答对，总字符数4766264。.基于以上研究，项目组构建了领域信息采集、标注平台和领域知识问答系统两项示范应用，为相关研究的落地提供了基础。