复杂动态场景空时稀疏尺度广义目标分割方法研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61761024
项目类别：
地区科学基金项目
资助金额：
37.0万
负责人：
何自芬
依托单位：
昆明理工大学
学科分类：
F0116.图像信息处理
结题年份：
2021
批准年份：
2017
项目状态：
已结题
起止时间：
2018-01-01 至2021-12-31

项目参与者：
张印辉；王森；田敏；曹双旭；
关键词：
边缘分割边缘检测图像分割运动分割区域分割

项目摘要

Segmentation of complex dynamic scenes is a fundamental problem in image processing. Convolutional neural networks (CNNs) provide a powerful tool for segmentation. Existing methods usually exploit original data with large amount of spatio-temporal reduance for class-specific detection lacking effective saptio-temporal constraints, which lead to inefficient model training, invalid segmentation of class-agnostic objects and discontinuity of detail information. The key problem for high-performance segmentation is to explore a new representation mechanism of spatio-temporal sparse scenes and segmentation of generic objects with both spatial and temporal coherence constraints. We propose to segment generic objects in complex dynamic scenes at sparse spatio-temporal scales by building a novel cascade convolutional network with spatial and temporal coherence constraints. The cascade convolutional network is composed of a position detection and a segmentation sub-network. We explore a representation mechanism of spatio-temporal sparse scenes by training the cascade network using a specific loss function. To investigate online update strategy of object locations and build a spatio-temporal conditional random field (CRF) to impose spatial and temporal coherence constraints on activation feature maps, through inference of the CRF to obtain generic object segmentation. Carrying out segmentation experiments to verify the proposed algorithm on motion segmentation benchmarks and images acquired on an industrial robot vision platform. The scientific objective is to deal with the challenging problem of large displecement object segmentation in complex dynamic scenes with low resolution, and explore the representation mechanism of spatio-temporal sparse scenes for the purpose of high-performance segmentation of generic objects.

复杂动态场景分割是图像处理领域的一个重要研究课题，卷积神经网络为分割提供了有力的工具，但现有算法存在数据空时冗余过大、检测类别语义相关、缺乏有效空时约束等局限，导致模型训练效率较低、类无关目标分割失效、细节连贯性不足等缺陷。探索空时稀疏尺度场景数据表征机制和空时一致的广义目标分割算法，是实现高性能分割的关键。本项目以建立空时一致级联卷积网络模型为基础对空时稀疏复杂动态场景广义目标分割方法进行研究。建立由位置检测和分割子网构成的级联卷积网络，定义损失代价函数进行级联网络训练，探索空时稀疏场景广义目标表征机制；研究目标位置在线更新策略并建立空时条件随机场模型，施加激活特征映射空时一致性约束，推理实现广义目标分割；采用运动分割标准库和工业机器人视觉平台开展分割实验，验证本项目算法的性能。本项目旨在解决复杂动态场景低分辨大位移目标分割难题，为空时稀疏场景广义目标表征机制和高性能分割提供理论依据。

结项摘要

本研究针对现有复杂动态场景分割算法存在数据空时冗余过大、检测类别语义相关、缺乏有效空时约束等局限，研究对场景空时稀疏尺度特征表征学习能力及有效多尺度空时信息融合处理机制，以实现复杂动态场景广义目标高性能分割。其主要内容包括构建动态场景分割级联卷积神经网络模型；定义损失函数并进行级联卷积网络训练；建立条件随机场模型施加卷积特征映射空时一致性约束；激活特征响应位置在线更新与动态场景广义目标后验概率推理；复杂动态场景广义目标分割算法有效性验证。研究过程中构建空时一致级联卷积神经网络分割模型，促进基于语义排序属性对类无关对象的评估。定义损失代价目标函数表征每帧图像激活特征响应与真实分割之间的差异。损失代价目标函数最小化训练级联卷积网络参数，获得空时稀疏动态场景目标和背景特征有效表征。根据当前预测位置信息与空时显著位置信息之间的误差，在线更新具有较高评分的目标卷积特征映射位置信息，实现对目标激活特征响应位置的在线更新。制定空时一致条件随机场能量函数的变分优化策略，推理目标后验概率像素级分布，得到最终的复杂动态场景广义目标分割计算结果，建立动态场景广义目标后验概率像素级估计策略。采用高动态场景图像分割标准库弗里堡-伯克利运动分割（FBMS）数据集开展分割实验，视频对象分割结果与三种先进的分割方法进行对比实验，在ROC和PRC方面对FBMS训练集和测试集定性分割性能进行比较，提供的定性结果导致一致性评估，与AUC和AP方面的定量分数测量结果吻合良好。本项目在具有复杂动态范围工业机器人视觉计算平台无约束场景中进行分割实验。在随机初始化条件下，本项目提出方法和Deeplab方法在验证集的像素精度和Jaccard指数方面带来了额外平均4.1432％和4.4744％的改善，而比较本项目提出方法和Deeplab方法在测试集像素精度和Jaccard方面带来了额外的平均29.9465％和29.8712％的改进。本项目提出的同时处理类相关和类无关运动目标的分割方法，解决了具有较小数据冗余的复杂动态场景空时稀疏尺度中出现低分辨大位移广义运动目标分割难题，为复杂动态场景下目标鲁棒分割及其在制造领域的推广应用提供理论依据和高性能算法。