基于知识域与数据域协同的图像压缩算法研究

项目介绍
AI项目解读

基本信息

  • 批准号:
    61202139
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    25.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0210.计算机图像视频处理与多媒体技术
  • 结题年份:
    2015
  • 批准年份:
    2012
  • 项目状态:
    已结题
  • 起止时间:
    2013-01-01 至2015-12-31

项目摘要

Most recently, due to the rapid development of smart phones such as iphone and the popularity of cutting-edge Internet services such as Weibo and Youku, the multimedia data delivered over wireless networks have become increasingly huge. Therefore, the demand for image compression is becoming urgent in wireless multimedia communications. Traditional methods approach the image compression in data domain via the transform with a set of orthogonal bases that have been predefined, thereby requiring the large storage space for data and making against the fast delivery for image/video. In knowledge domain (i.e. the sets of knowledge generalized from natural objects), the image understanding methods target to extract the features and class labels of objects in an image, and they may be applied to image compression, as another way, in order to improve the efficiency of image compression. However, currently the research on this topic is still in its infancy. .For improving the compression efficiency of images, in light of human logic and perception mechanisms, we shall focus on the fundamental problems of image compression on the basis of the previous research results of this project. More specifically, (1) in knowledge domain we shall deal with the image understanding problem by combining the statistical learning and logic-rule learning together; (2) in data domain, we shall explore a learning method to obtain the over-complete texture dictionaries of different object classes and a computational approach for sparse representation with respect to the learnt dictionary; (3) towards image compression, we shall develop a unified collaborative framework to integrate the data and knowledge domains. In a word, this project aims at providing the new theoretical and technical foundation for the next generation image compression technology.
近年来,随着苹果等智能手机的发展以及无处不在的微博、在线视频等各类新型网络业务的普及,无线通信需传输的多媒体数据量变得日益庞大。因此,图像/视频压缩在无线多媒体通信中日趋重要。传统图像压缩算法大多基于数据域,通过预定义的正交基变换实现,占大量存储空间,不利于图像/视频高效传输。另一种新的研究思路为:在知识域上,即利用事物归纳后的知识集合,通过图像理解标识图像中物体的类别,进而应用于图像压缩,从而大幅提高图像压缩效率;该研究在国际上尚处于起步阶段。本项目将利用已有研究基础,以提高图像压缩率为目标,研究内容为:(1)借鉴人类逻辑思维与图像认知机理,在知识域上研究统计学习与逻辑法则学习相结合的图像理解算法;(2)在数据域上研究各类物体纹理字典的机器学习算法及其稀疏表示的计算模型;(3)融合数学模型与图像认知,构建数据域与知识域协同的图像压缩体系框架。本项目将为图像压缩提供新的理论依据与技术支持。

结项摘要

本项目从视觉认知的角度出发,在知识域上结合图像的结构知识与认知规律,在数据域上深入研究了图像及视频压缩方法,并着重研究了低码率下的图像压缩算法。在知识域上,本项目研究了图像的认知模型,为图像压缩奠定基础;在数据域上,结合知识域的认知模型,本项目研究了图像及视频压缩的具体方法。本项目已完成的研究内容如下:(1)利用统计学习的方法,研究人类视觉认知机理,并在此基础上提出了一系列图像识别及显著性检测方法,有效地提升了现有图像/视频显著性检测的精度,在知识域上为图像/视频压缩构建了视觉认知模型。代表性论文发表在ICCV、CVIU等计算机视觉领域顶级会议与期刊上。(2)在视觉认知模型基础上,结合图像/视频的显著性信息,本项目提出了码率、复杂度等编码资源的优化方法,并在下一代视频编码标准HEVC基础上,进一步地提升了图像及视频的率-失真性能,在感知失真不变的前提下,大幅地节省了图像/视频的压缩码率。代表性论文发表在IEEE JSTSP、TCSVT、ICME、DCC等信号处理领域及视频压缩领域的顶级期刊与会议上。(3)面向低码率的图像压缩,本项目提出了梯度下降的纹理字典学习方法,旨在从已有的训练图像中归纳自然图像所蕴含(符合人类视觉认知)纹理的基本规律:基本纹理元,即组成自然图像的基本纹理样式。进一步,提出了可压缩的稀疏表示的计算模型,对稀疏表示系数进行量化与熵编码后,将其应用于图像低码率压缩中,大幅地提升了低码率下(如0.1bpp)图像的压缩质量。代表性论文发表在IEEE TCSVT、VCIP等视频编码领域顶级期刊与权威会议上。此外,本项目构建了图像压缩平台,有效地验证了相关图像压缩算法的性能,部分代码已完成开源。综上,本项目为从视觉认知角度研究图像/视频压缩提供了新的理论依据与技术支撑。.围绕上述研究内容,本项目共发表学术论文25篇,其中包括IEEE Transactions等国际顶级期刊SCI论文8篇,ICCV等国际知名会议EI论文17篇;获授权专利2项,正在申请专利3项;超额完成了预期研究成果。此外,多次获得IEEE国际会议/期刊最佳论文奖及提名。项目负责人2013年入选北京航空航天大学“卓越百人”青年人才引进计划,2014年入选微软亚洲研究院“青年教师铸星”计划,并获2015年ICCV青年学者资助奖。

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(8)
会议论文数量(17)
专利数量(0)
Region-of-Interest Based Conversational HEVC Coding with Hierarchical Perception Model of Face
基于兴趣区域的会话 HEVC 编码和人脸分层感知模型
  • DOI:
    10.1109/jstsp.2014.2314864
  • 发表时间:
    2014-06-01
  • 期刊:
    IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING
  • 影响因子:
    7.5
  • 作者:
    Xu, Mai;Deng, Xin;Wang, Zulin
  • 通讯作者:
    Wang, Zulin
A Novel Weight-Based R-lambda Rate Control Scheme for Perceptual Coding of Conversational Videos in HEVC
用于 HEVC 中会话视频感知编码的新型基于权重的 R-lambda 速率控制方案
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    Signal Processing: Image Communication
  • 影响因子:
    --
  • 作者:
    Shengxi Li;Mai Xu;Xin Deng;Zulin Wang
  • 通讯作者:
    Zulin Wang
Tower of Knowledge for scene interpretation: A survey
场景解读知识塔:一项调查
  • DOI:
    10.1016/j.patrec.2014.02.009
  • 发表时间:
    2014-10
  • 期刊:
    Pattern Recognition Letters
  • 影响因子:
    5.1
  • 作者:
    Mai Xu;Zulin Wang;Maria Petrou
  • 通讯作者:
    Maria Petrou
Online Dictionary Learning based Intra-Frame Video Coding via Sparse Representation
基于在线字典学习的稀疏表示帧内视频编码
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    Wireless Personal Communications
  • 影响因子:
    2.2
  • 作者:
    Yipeng Sun;Mai Xu;Xiaoming Tao;Jianhua Lu
  • 通讯作者:
    Jianhua Lu
共 4 条
  • 1
前往

其他文献

β-PbO2 /TiO2纳米管电极的制备及其电催化降解苯酚
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    应用化学
  • 影响因子:
    --
  • 作者:
    洪萍;王凤武;徐迈;魏亦军
  • 通讯作者:
    魏亦军
Fabrication of La-doped TiO2 Film Electrode and investigation of its electrocatalytic activity for furfural reduction
La掺杂TiO2薄膜电极的制备及其糠醛还原电催化活性研究
  • DOI:
    10.1016/j.electacta.2014.11.203
  • 发表时间:
    2015-01
  • 期刊:
    Electrochimical Acta
  • 影响因子:
    --
  • 作者:
    王凤武;徐迈;魏琳
  • 通讯作者:
    魏琳
Electrocatalytic degradation of methylene blue on Co doped Ti/TiO2 nanotube/PbO2 anodes prepared by pulse electrodeposition
脉冲电沉积Co掺杂Ti/TiO2纳米管/PbO2阳极上电催化降解亚甲基蓝
  • DOI:
    10.1016/j.jelechem.2015.11.009
  • 发表时间:
    2015-12
  • 期刊:
    Journal of Electroanalytical Chemistry
  • 影响因子:
    4.5
  • 作者:
    王灿永;王凤武;徐迈;方文彦
  • 通讯作者:
    方文彦
面向体验质量的多媒体计算通信
  • DOI:
    10.11834/jig.200864
  • 发表时间:
    2021
  • 期刊:
    中国图象图形学报
  • 影响因子:
    --
  • 作者:
    陶晓明;杨铀;徐迈;段一平;黄丹蓝;刘文予
  • 通讯作者:
    刘文予
基于差分蜂群算法的电力系统经济负荷分配
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    控制与决策
  • 影响因子:
    --
  • 作者:
    熊伟丽;徐迈;徐保国
  • 通讯作者:
    徐保国
共 10 条
  • 1
  • 2
前往

正在为您生成内容...

徐迈的其他基金

火星表面全景视频编码与立体增强技术
  • 批准号:
    62231002
  • 批准年份:
    2022
  • 资助金额:
    287.00 万元
  • 项目类别:
    重点项目
基于多模态知识塔的可解释神经网络
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    247 万元
  • 项目类别:
火星表面全景视频编码与立体增强技术
  • 批准号:
    62250001
  • 批准年份:
    2022
  • 资助金额:
    287 万元
  • 项目类别:
    重点项目
基于知识塔的可解释神经网络
  • 批准号:
    62050175
  • 批准年份:
    2020
  • 资助金额:
    100 万元
  • 项目类别:
    专项基金项目
视频压缩与传输
  • 批准号:
    61922009
  • 批准年份:
    2019
  • 资助金额:
    130 万元
  • 项目类别:
    优秀青年科学基金项目
数据驱动下的全景视频感知模型
  • 批准号:
    61876013
  • 批准年份:
    2018
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目
基于视觉感知模型的视频编码关键技术研究
  • 批准号:
    61573037
  • 批准年份:
    2015
  • 资助金额:
    66.0 万元
  • 项目类别:
    面上项目