细小目标分割预研

ref:Ref: https://zhuanlan.zhihu.com/p/398546919背景而且目标的像素比例比较小，使网络训练较为困难。相对于常规尺寸的目标，小目标通常缺乏充足的外观信息，因此难以将它们与背景或相似的目标区分开来。在深度学习的驱动下，尽管目标检测算法已取得了重大突破，但是对于小目标的检测仍然是不尽人意的。在目标检测公共数据集 MS COCO［1］上，小目标和大目标在检

祝小梦

7531人浏览 · 2022-05-17 14:44:10

祝小梦 · 2022-05-17 14:44:10 发布

ref:Ref: https://zhuanlan.zhihu.com/p/398546919

背景

而且目标的像素比例比较小，使网络训练较为困难。相对于常规尺寸的目标，小目标通常缺乏充足的外观信息，因此难以将它们与背景或相似的目标区分开来。在深度学习的驱动下，尽管目标检测算法已取得了重大突破，但是对于小目标的检测仍然是不尽人意的。在目标检测公共数据集 MS COCO［1］上，小目标和大目标在检测性能上存在显著差距，小目标的检测性能通常只有大目标的一半。由此可见，小目标检测仍然是充满挑战的。此外，真实场景是错综复杂的，通常会存在光照剧烈变化、目标遮挡、目标稠密相连和目标尺度变化等问题，而这些因素对小目标特征的影响是更加剧烈的，进一步加大了小目标检测的难度。事实上，小目标检测具有重要的研究意义和应用价值。对于机场跑道，路面上会存在微小物体，如螺帽、螺钉、垫圈、钉子和保险丝等，精准地检测出跑道的这些小异物将避免重大的航空事故和经济损失。对于自动驾驶，从汽车的高分辨率场景照片中准确地检测出可能引起交通事故的小物体是非常有必要的。对于工业自动化，同样需要小目标检测来定位材料表面可见的小缺陷。对于卫星遥感图像，图像中的目标，例如车、船，可能只有几十甚至几个像素。精确地检测出卫星遥感图像中的微小目标将有助于政府机构遏制毒品和人口贩运，寻找非法渔船并执行禁止非法转运货物的规定。

综上所述，小目标检测具有广泛的应用价值和重要的研究意义。

面临的挑战

（1）可利用特征少

无论是从基于绝对尺度还是基于相对尺度的定义，小目标相对于大/中尺度尺寸目标都存在分辨率低的问题。低分辨率的小目标可视化信息少，难以提取到具有鉴别力的特征，并且极易受到环境因素的干扰，进而导致了检测模型难以精准定位和识别小目标。

（2）定位精度要求高

小目标由于在图像中覆盖面积小，因此其边界框的定位相对于大/中尺度尺寸目标具有更大的挑战性。在预测过程中，预测边界框框偏移一个像素点，对小目标的误差影响远高于大/中尺度目标。此外，现在基于锚框的检测器依旧占据绝大多数，在训练过程中，匹配小目标的锚框数量远低于大/中尺度目标，如图1所示，这进一步地导致了检测模型更侧重于大/中尺度目标的检测，难以检测小目标。

Gated-SCNN:提高小物体和细物体分割效果 ICCV 2019

原文地址： Gated-SCNN : Gated Shape CNNs for Semantic Segmentation [2019] [ICCV]
源码地址： https://nv-tlabs.github.io/GSCNN/

1. 问题描述

论文中提到，语义分割主要遇到的问题是低分辨率和语义信息不足等。许多研究者也提出了融合不同层的语义信息，以及利用多尺度分辨率的上采样模块等，来缓解这些问题。语义分割在细小的目标分割上还存在一些问题。这个问题可以从网络结构的内在出发，单一网络的结构融合了非常多的不同类型的信息：颜色、形状以及纹理信息。这些信息被融合在一起处理，可能会导致对识别重要的信息不够的突出。
创新点
提出了一种用于语义分割的Two-Stream结构CNN(GS-CNN)。GS-CNN主要加入了一个单独的分支用来学习边缘信息，称之为形状流。这一结构改进使得分割模型能够更好的预测对象的边缘信息，显著的提升了小物体和细物体的分割效果

2. 整体架构：
在这里插入图片描述

网络结构总体上分为三个部分：常规流（Regular Stream）、形状流（Shape Stream）、融合模块（Fusion Module）。
常规流：可选用VGG或者ResNet作为backbone。
形状流：两路输入，M1作为一路输入，后续M3、M4、M5陆续作为二路输入。门控卷积层GCL用来生成权重图。图中的image gradients表示用canny算子提取的图像边缘信息，edge bce loss 用来监督边缘信息的提取，强迫形状流只学习边缘信息。最后把提取的边缘信息进行融合并汇入融合模块。
融合模块：总共融合四路信息。

3.实验结果：
在这里插入图片描述
从表中数据可以看到网络对细小物体的分割效果有显著提升，尤其是杆，信号标志、信号灯、摩托车。

生成对抗学习

Perceptual Generative Adversarial Networks for Small Object Detection –CVPR-2017
1.背景
解决小目标检测问题的一般方法：提高输入图像的分辨率，会增加运算量；多尺度特征表示，结果不可控。论文使用感知生成式对抗网络（Perceptual GAN）提高小物体检测率，generator将小物体的poor表示转换成super-resolved的表示，discriminator与generator以竞争的方式分辨特征。Perceptual GAN挖掘不同尺度物体间的结构关联，提高小物体的特征表示，使之与大物体类似。

在这里插入图片描述
2.模型
Perceptual GAN总体结构如上图所示，分辨器有两个分支，包含两个子网络，生成网络和感知分辨网络。
感知分辨网络作为对抗分支分辨生成的小物体特征与实际大物体特征，感知分支解释生成表示的检测率增益。使用交替的方式优化生成器和分辨器网络的参数，解决对抗min-max问题。训练对抗网分支最大化分配相同标签给小物体生成特征和大物体特征的概率。分辨网络是为了尽可能的找出小物体生成特征和实际大物体特征的不同。这样监督生成网络生成更接近实际的小物体特征，将物体分为大物体和小物体两个子集，感知分支先在大物体特征上训练，获得较高的检测率，然后使用小物体训练生成网络，两个子集对抗分支。交替训练生成网络和对抗分支，达到平衡点。

生成网络是一个深度残差特征生成模型，通过引入低层精细粒度的特征将原始的较差的特征转换为高分变形的特征，增强小物体标识。，生成器将conv1的输出作为输入，经历卷积，残差块学习大物体和小物体间的残差表示，学到的残差标识与原con5特征元素加操作，得到提升的表示。

3.实验结果
在这里插入图片描述

在交通标志数据库Tsinghua-Tencent 100k及Caltech上实验，与Faster-rcnn相比，小物体检测率确实提高很多。生成对抗学习的方法旨在通过将低分辨率小目标的特征映射成与高分辨率目标等价的特征，从而达到与尺寸较大目标同等的检测性能。

多尺度学习

1.背景

传统的解决多尺度检测的算法，大都依赖于图像金字塔与特征金字塔。与上述算法不同，图森组对感受野这一因素进行了深入的分析，并利用了空洞卷积这一利器，构建了简单的三分支网络TridentNet，设计三个并行分支获取不同大小的感受野，以分别处理不同尺度的目标，感受野使用空洞卷积表征，对于多尺度物体的检测有了明显的精度提升。
2.模型
在这里插入图片描述
TridentNet网络的作者将3种不同的感受野网络并行化，提出了如下图所示的检测框架。采用ResNet作为基础Backbone，前三个stage沿用原始的结构，在第四个stage，使用了三个感受野不同的并行网络。
（1）3个不同的分支使用了空洞数不同的空洞卷积，感受野由小到大，可以更好地覆盖多尺度的物体分布。
（2）由于3个分支要检测的内容是相同的、要学习的特征也是相同的，只不过是形成了不同的感受野来检测不同尺度的物体，因此，3个分支共享权重，这样既充分利用了样本信息，学习到更本质的目标检测信息，也减少了参数量与过拟合的风险。
（3）借鉴了SNIP的思想，在每一个分支内只训练一定范围内的样本，避免了过大与过小的样本对于网络参数的影响。
在训练时，TridentNet网络的三个分支会接入三个不同的head网络进行后续损失计算。在测试时，由于没有先验的标签来选择不同的分支，因此只保留了一个分支进行前向计算，这种前向方法只有少量的精度损失。

3.实验结果
在这里插入图片描述
COCO mini数据集上的结果。从基线开始，逐步增加多分支设计，所提出的方法得到明显的提升。

优化损失函数

优化损失函数也是一种提升小目标检测性能的有效方法。在网络的训练过程中，小目标更容易受到随机误差的影响。随后，他们针对这一问题进行了改进，提出一种依据目标尺寸设定不同权重的损失函数，实现了小目标检测性能的提升。Lin等则针对类别不均衡问题，在RetinaNet中提出了焦距损失，有效解决了训练过程中存在的前景‑背景类不平衡问题。进一步地，Zhang等将级联思想与焦距损失相结合，提出了Cascade RetinaNet，进一步提高了小目标检测的精度。针对小目标容易出现的前景与背景不均衡问题，Deng等则提出了一种考虑前景‑背景之间平衡的损失函数，通过全局重建损失和正样本块损失提高前景与背景的特征质量，进而提升了小目标检测的性能。

在bounding bbox损失上加一个针对小物体的权重2-w*h。

点击阅读全文