基于知识域与数据域协同的图像压缩算法研究

项目介绍

AI项目解读

基本信息

批准号：
61202139
项目类别：
青年科学基金项目
资助金额：
25.0万
负责人：
徐迈
依托单位：
北京航空航天大学
学科分类：
F0210.计算机图像视频处理与多媒体技术
结题年份：
2015
批准年份：
2012
项目状态：
已结题
起止时间：
2013-01-01 至2015-12-31

项目参与者：
丁志国；丁志国；山秀明；林鹏；孙逸鹏；陈钊；李扬；张中华；
关键词：
稀疏表示图像压缩图像理解多媒体通信理论与技术字典学习

项目摘要

Most recently, due to the rapid development of smart phones such as iphone and the popularity of cutting-edge Internet services such as Weibo and Youku, the multimedia data delivered over wireless networks have become increasingly huge. Therefore, the demand for image compression is becoming urgent in wireless multimedia communications. Traditional methods approach the image compression in data domain via the transform with a set of orthogonal bases that have been predefined, thereby requiring the large storage space for data and making against the fast delivery for image/video. In knowledge domain (i.e. the sets of knowledge generalized from natural objects), the image understanding methods target to extract the features and class labels of objects in an image, and they may be applied to image compression, as another way, in order to improve the efficiency of image compression. However, currently the research on this topic is still in its infancy. .For improving the compression efficiency of images, in light of human logic and perception mechanisms, we shall focus on the fundamental problems of image compression on the basis of the previous research results of this project. More specifically, (1) in knowledge domain we shall deal with the image understanding problem by combining the statistical learning and logic-rule learning together; (2) in data domain, we shall explore a learning method to obtain the over-complete texture dictionaries of different object classes and a computational approach for sparse representation with respect to the learnt dictionary; (3) towards image compression, we shall develop a unified collaborative framework to integrate the data and knowledge domains. In a word, this project aims at providing the new theoretical and technical foundation for the next generation image compression technology.

近年来，随着苹果等智能手机的发展以及无处不在的微博、在线视频等各类新型网络业务的普及，无线通信需传输的多媒体数据量变得日益庞大。因此，图像/视频压缩在无线多媒体通信中日趋重要。传统图像压缩算法大多基于数据域，通过预定义的正交基变换实现，占大量存储空间，不利于图像/视频高效传输。另一种新的研究思路为：在知识域上，即利用事物归纳后的知识集合，通过图像理解标识图像中物体的类别，进而应用于图像压缩，从而大幅提高图像压缩效率；该研究在国际上尚处于起步阶段。本项目将利用已有研究基础，以提高图像压缩率为目标，研究内容为：（1）借鉴人类逻辑思维与图像认知机理，在知识域上研究统计学习与逻辑法则学习相结合的图像理解算法；（2）在数据域上研究各类物体纹理字典的机器学习算法及其稀疏表示的计算模型；（3）融合数学模型与图像认知，构建数据域与知识域协同的图像压缩体系框架。本项目将为图像压缩提供新的理论依据与技术支持。

结项摘要

本项目从视觉认知的角度出发，在知识域上结合图像的结构知识与认知规律，在数据域上深入研究了图像及视频压缩方法，并着重研究了低码率下的图像压缩算法。在知识域上，本项目研究了图像的认知模型，为图像压缩奠定基础；在数据域上，结合知识域的认知模型，本项目研究了图像及视频压缩的具体方法。本项目已完成的研究内容如下:(1)利用统计学习的方法，研究人类视觉认知机理，并在此基础上提出了一系列图像识别及显著性检测方法，有效地提升了现有图像/视频显著性检测的精度，在知识域上为图像/视频压缩构建了视觉认知模型。代表性论文发表在ICCV、CVIU等计算机视觉领域顶级会议与期刊上。（2）在视觉认知模型基础上，结合图像/视频的显著性信息，本项目提出了码率、复杂度等编码资源的优化方法，并在下一代视频编码标准HEVC基础上，进一步地提升了图像及视频的率-失真性能，在感知失真不变的前提下，大幅地节省了图像/视频的压缩码率。代表性论文发表在IEEE JSTSP、TCSVT、ICME、DCC等信号处理领域及视频压缩领域的顶级期刊与会议上。（3）面向低码率的图像压缩，本项目提出了梯度下降的纹理字典学习方法，旨在从已有的训练图像中归纳自然图像所蕴含（符合人类视觉认知）纹理的基本规律：基本纹理元，即组成自然图像的基本纹理样式。进一步，提出了可压缩的稀疏表示的计算模型，对稀疏表示系数进行量化与熵编码后，将其应用于图像低码率压缩中，大幅地提升了低码率下（如0.1bpp）图像的压缩质量。代表性论文发表在IEEE TCSVT、VCIP等视频编码领域顶级期刊与权威会议上。此外，本项目构建了图像压缩平台，有效地验证了相关图像压缩算法的性能，部分代码已完成开源。综上，本项目为从视觉认知角度研究图像/视频压缩提供了新的理论依据与技术支撑。.围绕上述研究内容，本项目共发表学术论文25篇，其中包括IEEE Transactions等国际顶级期刊SCI论文8篇，ICCV等国际知名会议EI论文17篇；获授权专利2项，正在申请专利3项；超额完成了预期研究成果。此外，多次获得IEEE国际会议/期刊最佳论文奖及提名。项目负责人2013年入选北京航空航天大学“卓越百人”青年人才引进计划，2014年入选微软亚洲研究院“青年教师铸星”计划，并获2015年ICCV青年学者资助奖。