34页综述,共计119篇参考文献。本文对图像分割中的最新深度学习体系结构进行了全面分析,更重要的是,它提供了广泛的技术列表以实现快速推理和计算效率。

A Survey on Deep Learning Methods for Semantic Image Segmentation in Real-Time

9dbab6ef57803a957956be148bc7df59.png
作者:Georgios Takos
论文:A Survey on Deep Learning Methods for Semantic Image Segmentation in Real-Time

注:如果上述论文链接无法访问,可以看文末,论文已上传至百度云,方便下载。

综述

背景

语义图像分割是计算机视觉中增长最快的领域之一,具有多种应用。在许多领域,例如机器人技术和自动驾驶汽车中,语义图像分割至关重要,因为语义分割为基于像素级别的场景理解提供了采取动作所需的必要上下文。此外,医学诊断和治疗的成功取决于对所考虑数据的极其准确的理解,并且语义图像分割是许多情况下的重要工具之一。深度学习的最新发展提供了许多工具来有效地解决这一问题,并且提高了准确性。

这项工作对图像分割中的最新深度学习体系结构进行了全面分析,更重要的是,它提供了广泛的技术列表以实现快速推理和计算效率。通过深入分析这些技术在该领域中的影响,讨论了这些技术的起源以及它们的优势和取舍。总结了性能最佳的体系结构,并列出了用于实现这些最新结果的方法。

常见的语义分割数据集

d1598471ce716634962ffb3b1e425854.png

基于深度学习的语义分割

先回顾了具有代表性的语义分割网络,如FCN、U-Net、DeepLab系列等

803414e711827e1356e921df4b6ba89b.png

c9325346bf6b8303c02e701a6b73a882.png

e4c8012079b70a55696d9fb1d4122018.png

Cityscapes数据集上性能较好的网络如下:

28501aca570d0e5758dcffeaa22e6e9d.png

实时语义分割

主要技术:

  1. FFT
  2. Pruning(剪枝)
  3. Quantization(量化)
  4. 深度可分离卷积
  5. 空洞卷积
  6. Width and Resolution Multipliers
  7. Early Downsampling
  8. Smaller Decoder Size
  9. Efficient Grid Size Reduction
  10. Drop Bias Terms
  11. Stack Multiple Layers with Small Kernels
  12. Channel Shuffle Operation
  13. Two Branch Networks
  14. Other Design Choices

96c69369774308823c1831ea22b883b0.png

Cityscapes数据集上实时性能较好的网络如下:

332cd01e43190fb2dd714d6c20b1b2df.png

论文下载

链接: https:// pan.baidu.com/s/1Je_GKT gghyLnJU2OVLSpWg
提取码:6ok3

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

推荐阅读

涨点神器!南航提出AFF:注意力特征融合

NeurIPS 2020 | 谷歌大脑提出:重新思考预训练和自训练

NeurIPS 2020 | 用于图像复原/恢复的神经稀疏表示

NeurIPS 2020 | aLRPLoss:统一目标检测中的分类和定位的平衡损失函数

ECCV 2020 | MIRNet:学习丰富的特征以进行真实图像修复和增强

CCE:具有互补交叉熵的不平衡图像分类

谷歌地标检索2020 Kaggle 第一名解决方案

ECCV AIM 2020 真实图像超分辨率挑战赛3项冠军解决方案

LVIS 实例分割挑战赛2020的第一名解决方案:好的Box不能保证好的Mask

ETH Zurich提出DPIR:具有Denoiser先验的即插即用图像恢复

IR R-CNN:小目标检测的内在关系推理

综述 | 人脸图像质量评估:全面调研(2004-2020)

MAFFSRN:具有多注意力层的超轻量级图像超分辨率

冠军解决方案 | RMGL:用于行人重识别的感受野多粒度表示

VarifocalNet:IoU-aware 密集目标检测器(已开源)

ECCV 2020 | NAS-DIP:通过NAS实现DIP(去噪/去雾/超分辨率/修复等)

TIP 2020 | PNEN:金字塔Non-Local增强型网络

综述 | 小样本学习:全面调研(Few-shot)

MiCo:用于半监督域自适应的Mixup联合训练

使用深度神经网络从Noisy Labels中学习:全面调研

PyTorch3D:面向3D计算机视觉的PyTorch工具箱

剪枝filter?还是剪枝layer?这是个问题

牛津大学VGG组提出:自监督实例自适应的单目深度估计

ECCV 2020 | WeightNet:重新探索Weight网络的设计空间

Mask TextSpotter v3:用于场景文字检测和识别的分割Proposal网络

ECCV 2020 | URIE:用于视觉识别的通用图像增强

ECCV 2020 | 魔鬼在细节中:车辆重识别的自监督注意力(SAVER)

ECCV 2020 | 53.5 AP!PAA:用于目标检测的IoU预测的概率Anchor分配

ECCV 2020 | 南京理工提出FPT:特征金字塔Transformer

ECCV 2020 | 长尾数据集中多标签分类的分布平衡损失

清华大学提出ISDA:使用语义数据增广来正则化深度网络

ECCV 2020 | BMask R-CNN:边界保持的Mask R-CNN

ECCV 2020 | 即插即用!PSConv:将特征金字塔压缩到紧凑的多尺度卷积层中

ECCV 2020 | STTN:用于视频修复的时空联合Transformer

ECCV 2020 | LiteFlowNet3:实现更准确的光流估计

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐