BUG如下

ImportError: /home/hadoop-cvml/.conda/envs/masktrackrcnn_cu102/lib/python3.8/site-packages/mmcv/_ext.cpython-38-x86_64-linux-gnu.so: undefined symbol: _ZN6caffe28TypeMeta21_typeMetaDataInstanceIdEEPKNS_6detail12TypeMetaDataEv

RuntimeError: CUDA error: no kernel image is available for execution on the device

问题描述

在workstation机器上完成maskrcnn的单卡和多卡训练调试后,移植到docker服务器的过程中出现了如下所示n多bug
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

经过 pytorch版本,MMCV版本,和CUDA版本地不停调试,结合workstation和docker GPU的型号和CUDA版本差异,定位到问题出在了GPU架构的差异对MMCV框架的影响

详见

  1. MMCVBUG

  2. pytorch/pytorch#47585

  3. Nvidia-GPU-feature_list

workstation的GPU为GeForce RTX 2080 Ti,为Turing架构,而docker内的GPU为Tesla V100-SXM2-32GB,为Volta架构,因此根据起架构特性在安装MMCV时需要添加架构参数

TORCH_CUDA_ARCH_LIST=7.0 pip install mmcv-full
Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐