流式文档排版格式的智能化分析与优化方法

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61672105
  • 项目类别:
    面上项目
  • 资助金额:
    62.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2020
  • 批准年份:
    2016
  • 项目状态:
    已结题
  • 起止时间:
    2017-01-01 至2020-12-31

项目摘要

The Re-flowable document is a kind of important data resources because of its wide application, rich information and high value. Aiming at the requirements in re-flowable document optimization, this research seeks for an intelligent way to analyze the document semantics. It tries to draw on the methods used in the areas of natural language processing and machine learning to understand the semantics of the document expressed by the composing elements. It intends to utilize different characteristics comprehensively including those existed in the low level format, the text characteristics as well as structural characteristics to build a statistical model with rules in order to recognize the logic components and the whole document structure, laying the foundation for various key applications such as typesetting verification, layout reconstruction and so on. The research is focused on the specification of typesetting rules, ontology based document partition, machine learning based document component identification, hierarchical method for document semantic analysis and corpus construction, etc. The major innovations include: the composing elements are taken as the research object to study the document semantics thus expanding the scope of text understanding; the advantage of re-flowable document is played fully in the information extraction process thus making up the shortage in the traditional information extraction; a hierarchical semantic analysis method is applied thus reducing the domain dependency of components and simplifying typesetting rules. This project is of much significance to the normalization of document typesetting, as well as to the proper presentation and efficient use of the document big data.
流式文档因其用途广、信息量大、价值高,是一类重要的数据资源。本项目针对流式文档格式优化的要求,探索智能化的文档语义分析方法。试图借鉴自然语言处理和机器学习的研究方法,理解排版元素所表达的语义,综合利用流式文档中蕴含的低层格式信息、文本特征和结构特征,构建统计模型和规则,识别文档的逻辑构件和整体结构,从而为文档排版格式检验和格式重排等关键应用奠定基础。本项目重点研究文档排版规则的构造方法、基于本体的文档构件划分方法、基于机器学习的文档构件识别方法、文档语义的层次化分析方法以及基础语料库建设。主要创新之处是,以流式文档的排版元素为研究对象,研究流式文档的语义,以扩展文本理解的范围;信息提取中充分发挥流式文档的优势,可弥补传统方法的不足;采用分层的语义分析方法,可降低构件的领域相关度,简化排版规则的描述。本项目对于规范文档的格式、合理展现文档,高效利用文档,发挥文档大数据的作用具有重要意义。

结项摘要

流式文档因其用途广、信息量大、价值高,是一类重要的数据资源。本项目针对流式文档格式优化等应用需求,探索智能化的文档语义分析方法,结合机器学习和自然语言处理技术,识别文档结构,进而进行格式查错和优化,很好地完成了项目的预期目标。具体工作包括:1)文档语料库的建设。针对机器学习的需要,采集加工多种类型的文档,并对部分语料进行加工标注,用作学习和测试样本,开发了半自动化的标注工具;2)对文档进行层次结构划分,分解为具有独立语义的构件,并使用排版规则表示文档层次上的构件组成;3)采用基于规则的方法和基于机器学习的方法对构件进行容错识别,在此基础上使用排版规则对文档的结构进行分析;4)利用文档结构识别的结果,通过排版规则验证文档结构的正确性,发现错误并加以纠正。本项目的重点是对文档构件和文档结构识别算法的研究,深入研究了内容特征、格式特征和位置特征等的提取,尝试将基于语法规则的方法、基于统计分析的方法和基于深度学习的方法用于文档构件和文档结构识别,均取得了良好的效果。此外,本项目还对相关的领域开展了研究,包括文字表格的逻辑结构识别,参考文献的著录项识别和参考文献格式查错,文字字体的识别和字体替代,以及书后索引的自动构建等等。本项目在以下方面具有创新性:1)结合流式文档中的文本和式样信息研究文档语义,扩展了自然语言处理文本理解的研究方法。2)信息提取中综合利用内容、格式和结构等特征,获取构件的逻辑标签和文档结构信息,充分发挥了流式文档的优势,提高了文档语义信息提取的能力。3)采用分层的语义分析方法,建立文档结构到文档构件,以及文档构件到排版元素的关联,将相对稳定的构件识别交由机器学习完成,将可变的逻辑结构识别通过排版规则来判定,降低了构件的领域相关度,以及文档结构理解的难度。本项目的研究具有广泛的理论研究与实际应用价值。其意义包括:提高出版物特别是学术出版物的质量;促进文档信息的有效利用和传播;充分发挥文档数据的价值,有效利用文档中的语义信息;节省文档排版和格式检验的人工成本。此外,本项目也有助于丰富和拓展其他相关领域的研究工作。

项目成果

期刊论文数量(11)
专著数量(0)
科研奖励数量(1)
会议论文数量(7)
专利数量(4)
一种融合语义角色和依存句法的实体关系抽取算法
  • DOI:
    10.16508/j.cnki.11-5866/n.2019.01.012
  • 发表时间:
    2019
  • 期刊:
    北京信息科技大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    秦晓慧;侯霞;赵雪
  • 通讯作者:
    赵雪
面向机器学习的流式文档逻辑结构标注方法研究
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    刘倩;李宁;田英爱
  • 通讯作者:
    田英爱
流式文档排版效果自动化测试方法
  • DOI:
    --
  • 发表时间:
    2021
  • 期刊:
    计算机工程与应用
  • 影响因子:
    --
  • 作者:
    左阔;李宁;田英爱;侯霞
  • 通讯作者:
    侯霞
基于构件理解的文档格式优化方法
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    北京信息科技大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    王娟;李宁;郝海利
  • 通讯作者:
    郝海利
基于双向LSTM 网络的流式文档结构识别
  • DOI:
    10.19678/j.issn.1000-3428.0053702
  • 发表时间:
    2020
  • 期刊:
    计算机工程
  • 影响因子:
    --
  • 作者:
    张真;李宁;田英爱
  • 通讯作者:
    田英爱

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

压裂泵泵头体材料的疲劳实验与疲劳寿命预估
  • DOI:
    10.14158/j.cnki.1001-3814.20181461
  • 发表时间:
    2020
  • 期刊:
    热加工工艺
  • 影响因子:
    --
  • 作者:
    曾云;周思柱;李宁;李美求;姜磊
  • 通讯作者:
    姜磊
砒砂岩区地貌形态三维分形特征量化及空间变异
  • DOI:
    10.13249/j.cnki.sgs.2016.01.018
  • 发表时间:
    2016
  • 期刊:
    地理科学
  • 影响因子:
    --
  • 作者:
    张传才;秦奋;王海鹰;李宁;李阳
  • 通讯作者:
    李阳
一组中温厌氧消化菌群高温启动过程中的菌群多样性变化研究
  • DOI:
    10.13671/j.hjkxxb.2015.0648
  • 发表时间:
    2015
  • 期刊:
    环境科学学报
  • 影响因子:
    --
  • 作者:
    吕育财;李宁;郭金玲;龚大春;王小芬;崔宗均
  • 通讯作者:
    崔宗均
基于混合硬化模型的超高压泵头体自增强研究
  • DOI:
    10.16082/j.cnki.issn.1001-4578.2015.02.016
  • 发表时间:
    2015
  • 期刊:
    石油机械
  • 影响因子:
    --
  • 作者:
    李宁;李友荣;周思柱;廖建敏;易文君
  • 通讯作者:
    易文君
云南拉沙山滇金丝猴的种子传播
  • DOI:
    10.13292/j.1000-4890.201908.019
  • 发表时间:
    2019
  • 期刊:
    生态学杂志
  • 影响因子:
    --
  • 作者:
    李宁;高帅;陈思宇;任源浩;李延鹏;黄志旁;肖文;崔亮伟
  • 通讯作者:
    崔亮伟

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码