基于典籍引得的句法级汉英平行语料库构建及人文计算研究
项目介绍
AI项目解读
基本信息
- 批准号:71673143
- 项目类别:面上项目
- 资助金额:48.0万
- 负责人:
- 依托单位:
- 学科分类:G0414.数字治理与信息资源管理
- 结题年份:2020
- 批准年份:2016
- 项目状态:已结题
- 起止时间:2017-01-01 至2020-12-31
- 项目参与者:黄水清; 魏向清; 何琳; 杨波; 庄倩; 刘浏; 姜霖; 刘润泽; 叶文豪;
- 关键词:
项目摘要
This research project aims to build a Chinese-English parallel corpus of ancient classics annotated at the syntactic level, and to further explore humanities computing. In order to fulfil the above aims, lexical knowledge of indexing ancient classics will be applied, and techniques of text mining and machine learning will be deployed. Besides, a Chinese-English syntactic parser will also be developed with reference to the English translations of ancient Chinese classics. Specifically speaking, the research project will proceed along the following steps: First, by using the lexicon in ancient classics index, the Great Chinese Dictionary and New Age English-Chinese Dictionary, a Chinese-English Dictionary of Ancient Classics will be made with the similarity algorithm. Second, a Chinese-English parallel corpus will be built with the alignment algorithm at the sentential level, and it will be annotated at the lexical level under the model of maximum entropy. Third, an automatic syntactic parser of function-collocation will be developed by making use of Penn Chinese Treebank, Penn English Treebank and a knowledge base of lexical collocation. Finally, based on the Chinese-English parallel corpus of ancient classics annotated at the syntactic level, a further exploration of humanities computing will be conducted from the perspectives of lexicon, text and edition.
基于典籍引得中有关词汇的标引知识,通过文本挖掘和机器学习的方法与技术,结合典籍对应的英语译文,在开发的汉英句法分析器的基础上,本课题拟构建句法级汉英典籍平行语料库,并在该库的基础上对人文计算进行相应的探究。本课题涉及到的主要研究内容如下:首先,基于典籍引得中的词汇,结合《汉语大词典》和《新时代英汉大词典》,通过相似度算法,构建典籍汉英双语词典。其次,在句子级对齐算法的基础上,构建句子级汉英平行语料库,并在最大熵模型的基础上,完成对汉英语料库的词汇级标注。其次,基于宾州汉语和英语树库,融合词汇搭配知识库,开发功能-搭配自动句法分析器,进而构建句法级汉英平行语料库。最后,基于典籍句法级汉英平行语料库,从词汇、篇章和版本三个角度完成对人文计算的探究。
结项摘要
在实施文化产业数字化战略的大背景下,基于深度学习、自然语言处理和文本挖掘等技术、方法和理念,如何基于典籍及翻译文本探究平行语料库的构建不仅有利于促进文化产业数字化的发展,而且对提升中国文化的软实力也具有重要的意义。将典籍汉英句子自动对齐问题视为候选句对分类问题,根据实验语料特点结合已有研究选取对齐句对特征,基于“整体分类”与“序列标注”两种不同的理念来识别候选句对中的对齐句对;采用涵盖经史子集四部的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型。最终将模型应用于《史记》,并对史记中构成事件的四种基本词类(人名、地名、时间词、动词)进行了整体统计与个例分析;利用Bi-RNN、Bi-RNN-CRF、Bi-LSTM、Bi-LSTM-CRF、Bi-LSTM-Attention、Bi-LSTM-CRF-Attention、BERT等七种深度学习模型,以《楚辞》《公羊传》《谷梁传》等25本先秦典籍为实验语料,对人名、地名、时间词三种可以构成历史事件的实体进行识别;基于典籍英译文的句子多层级标注结果,对典籍英译文的词汇、词性、介宾短语结构等角度对典籍英译文语料的特征进行统计和分析;结合已构建的典籍平行语料库和所构建的相应分词、词性、实体和短语标注模型,融合知识图谱的相应方法和技术,本章构建了典籍自动问答系统。所构建的典籍问答系统涵盖了实体知识抽取、知识图谱构建和相应具体语义知识点的呈现及相应问题检索等几个部分的内容。
项目成果
期刊论文数量(11)
专著数量(1)
科研奖励数量(1)
会议论文数量(5)
专利数量(0)
命名实体识别研究综述
- DOI:--
- 发表时间:2018
- 期刊:情报学报
- 影响因子:--
- 作者:刘浏;王东波
- 通讯作者:王东波
基于深度学习的先秦典籍问句自动分类研究
- DOI:--
- 发表时间:2018
- 期刊:情报学报
- 影响因子:--
- 作者:王东波;高瑞卿;沈思
- 通讯作者:沈思
不同词性标记集在典籍实体抽取上的 差异性探究
- DOI:--
- 发表时间:2019
- 期刊:数据分析与知识发现
- 影响因子:--
- 作者:袁悦;王东波;黄水清
- 通讯作者:黄水清
数字人文视野下的古汉语实体歧义研究
- DOI:--
- 发表时间:2020
- 期刊:图书与情报
- 影响因子:--
- 作者:刘浏;王东波;黄水清;苏新宁
- 通讯作者:苏新宁
A refined method for computing bibliographic coupling strengths
计算书目耦合强度的改进方法
- DOI:10.1016/j.joi.2019.01.012
- 发表时间:2019-05
- 期刊:Journal of Informetrics
- 影响因子:3.7
- 作者:Si Shen;Danhao Zhu;Ronald Rousseau;Dongbo Wang
- 通讯作者:Dongbo Wang
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
政府环境风险信息公开博弈分析:基于民众参与的视角
- DOI:--
- 发表时间:2014
- 期刊:大连理工大学学报(社会科学版)
- 影响因子:--
- 作者:石磊;杜子超;王东波
- 通讯作者:王东波
基因重组PACAP 27衍生多肽RP2制备及促角膜上皮细胞增殖研究
- DOI:--
- 发表时间:2015
- 期刊:中国生物工程杂志
- 影响因子:--
- 作者:王东波;马义;王孝丽;赵绍军;韩磊;洪岸
- 通讯作者:洪岸
BOT项目特许期决策方法研究评述
- DOI:--
- 发表时间:--
- 期刊:预测
- 影响因子:--
- 作者:宋金波;戴大双;王东波;韩首栋
- 通讯作者:韩首栋
基于汉英词性组合的短语级平行语料类别知识挖掘研究
- DOI:--
- 发表时间:2013
- 期刊:图书情报工作
- 影响因子:--
- 作者:王东波;韩普;沈耕宇;沈思
- 通讯作者:沈思
弹性需求下交通BOT项目特许期决策
- DOI:--
- 发表时间:2011
- 期刊:管理工程学报
- 影响因子:--
- 作者:王东波;宋金波;戴大双;李铮
- 通讯作者:李铮
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
王东波的其他基金
基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究
- 批准号:71303120
- 批准年份:2013
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}