FPN+PAN结构,SPP结构

FPN 高维度向低维度传递语义信息（大目标更明确）PAN 低维度向高维度再传递一次语义信息（小目标也更明确）

highoooo

13984人浏览 · 2021-09-03 14:07:15

highoooo · 2021-09-03 14:07:15 发布

一、FPN+PAN

在这里插入图片描述
FPN 高维度向低维度传递语义信息（大目标更明确）
PAN 低维度向高维度再传递一次语义信息（小目标也更明确）
请添加图片描述

二、SPP

深层的feature map携带有更强的语义特征，较弱的定位信息。而浅层的feature map携带有较强的位置信息，和较弱的语义特征。FPN就是把深层的语义特征传到浅层，从而增强多个尺度上的语义表达。而PAN则相反把浅层的定位信息传导到深层，增强多个尺度上的定位能力。

在何恺明2015年《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》被提出，改论文主要改进两点：

解决CNN需要固定输入图像的尺寸，导致不必要的精度损失的问题；

因为带有全连接层的网络结构都需要固定输入图像的尺度，当然后期也有直接用conv层代替FC层的，比如SSD网络直接用conv层来计算边界框坐标和置信度的。

解决R-CNN对候选区域进行重复卷积计算，导致计算冗余的问题；

因为R-CNN网络中基于segment seletive输出的2000个候选框都要重新计算feature map较为耗时，因此提出了候选区域到全图的特征(feature map)之间的对应映射，这样图像只需计算一次前向传播即可。
在之后的 fast R-CNN 和 faster R-CNN 都采用这种映射关系，为ROI pooling层。
但在mask R-CNN中，用ROI Align替代了ROI pooling层，其认为两次量化的候选框与最开始的回归候选框有一定偏差，影响检测和分割准确度，ROI Align中不进行float量化，通过双线性内插计算四个坐标点，然后进行max pooling。