浅读A Simple Pooling-Based Design for Real-Time Salient Object Detection
[TOC]
前言
- 说明:
- 为了通过阅读论文来提升自己的科研水平,记录下paper作者的大体work、阅读论文收获的点以及产生的新想法。
- 本文阅读的paper为CVPR2019-A Simple Pooling-Based Design for Real-Time Salient Object Detection。
- 本文主要从paper研究的问题、paper通过何种方法来解决该问题、paper给出的效果和理论依据这三个方面来进行展开。
- 这篇文章读了一点点读不下去了,于是放弃转其他paper,但做了一些笔记,就想着还是发出来的好。
概述及论文背景分析
综述:
- 本篇paper是为了解决显著目标检测问题,通过扩展池在卷积神经网络中的作用来实现。
- 基于U形架构,在自下而上的路径上构建了一个全球制导模块(GGM)。
- 设计了一个特征集合模块(FAM),以使粗略语义信息与自顶向下的路径中的细微特征融合在一起。
- 通过在自上而下的路径中的融合操作之后添加FAM,可以将GGM中的粗略特征与各种规模的特征无缝融合。
- 可以更精确地定位具有锐化细节的突出对象,从而显著提高性能。实现方法非常快,并且在处理时可以以超过30 FPS的速度运行一幅大小为300×400的图像 。
背景分析:
显著目标检测
- 什么是显著目标检测?
显著物体检测是基于视觉注意机制的任务,其算法旨在探索比场景或图像周围区域更专注的物体及区域,通过智能算法模拟人的视觉特点,提取图像中的显著区域(即人类感兴趣的区域),是把输入图像分为显著物体和背景,只有两类。
- 显著检测的两种机制
- 自底向上基于数据驱动的注意机制
- 仅受感知数据的驱动,将人的视点指导到场景中的显著区域;通常与周围具有较强对比度或与周围有明显不同的区域吸引自下而上的注意。利用图像的颜色、亮度、边缘等特征表示,判断目标区域和它周围像素的差异,进而计算图像区域的显著性。
- 自顶向下基于任务驱动的目标的注意机制
- 由人的“认知因素” 决定, 比如知识、预期和当前的目标.对图像的特定特征来计算图像区域的显著性。
- 显著性检测模型标准
- 良好的检测:丢失实际显著区域的可能性以及将背景错误地标记为显著区域应该是低的。
- 高分辨率:显著图应该具有高分辨率或全分辨率以准确定位突出物体并保留原始图像信息。
- 计算效率:作为其他复杂过程的前端,这些模型应该快速检测显著区域。
- 显著目标检测的发展历程
- 传统方法:
- ①使用基于块(block-based)的视觉子集或基于区域(region-based)的视觉子集
- ②只使用图像本身提供的内部线索(intrinsic cues)或引入用户注释等外部线索(extrinsic cues)
- 深度学习方法:
- 使用多层感知机(MLPs)来进行显著性目标检测:输入图像通常被过度成单个或多尺度的小区域,然后将CNN用于提取图像中的高级特征,该高级特征随后被反馈回MLP以确定每个小区域的显着性值。
- 使用完全卷积神经网络(FCN)来进行显著性目标检测:首先被用于解决语义分割问题。由于显著对象检测本质上是一种分割任务,因此许多研究人员采用基于FCN的体系结构,因为它们具有保存空间信息的能力。
池化在卷积神经网络中的作用
- 什么是池化?
- 池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。
- 有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。
- 池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。
- 池化的三种常见方式
- mean-pooling,即对邻域内特征点只求平均,对背景保留更好。
- max-pooling,即对邻域内特征点取最大,对纹理提取更好。
- Stochastic-pooling,介于两者之间,通过对像素点按照数值大小赋予概率,再按照概率进行亚采样。
神经网络中卷积层与池化层作用对比
- 卷积层
- 提取图像的特征,并且卷积核的权重是可以学习的,在高层神经网络中,卷积操作能突破传统滤波器的限制,根据目标函数提取出想要的特征。
- 局部感知,参数共享的特点大大降低了网络参数,保证了网络的稀疏性,防止过拟合。
- 池化层
- 特征不变性(feature invariant):汇合操作使模型更关注是否存在某些特征而不是特征具体的位置,使特征学习包含某种程度自由度,能容忍一些特征微小的位移。
- 特征降维:由于汇合操作的降采样作用,汇合结果中的一个元素对应于原输入数据的一个子区域(sub-region),因此汇合相当于在空间范围内做了维度约减(spatially dimension reduction),从而使模型可以抽取更广范围的特征。
- 减小了下一层输入大小,进而减小计算量和参数个数。在一定程度上能防止过拟合的发生。