【BUG】MMCV的坑：ImportError: /xxxx/mmcv/_ext.cpython-38-x86_64-linux-gnu.so: undefined symbol: _ZN6caffe

BUG如下ImportError: /home/hadoop-cvml/.conda/envs/masktrackrcnn_cu102/lib/python3.8/site-packages/mmcv/_ext.cpython-38-x86_64-linux-gnu.so: undefined symbol: _ZN6caffe28TypeMeta21_typeMetaDataInstanceId

Chaossll

4847人浏览 · 2022-05-19 15:23:09

Chaossll · 2022-05-19 15:23:09 发布

BUG如下

ImportError: /home/hadoop-cvml/.conda/envs/masktrackrcnn_cu102/lib/python3.8/site-packages/mmcv/_ext.cpython-38-x86_64-linux-gnu.so: undefined symbol: _ZN6caffe28TypeMeta21_typeMetaDataInstanceIdEEPKNS_6detail12TypeMetaDataEv

RuntimeError: CUDA error: no kernel image is available for execution on the device

问题描述

在workstation机器上完成maskrcnn的单卡和多卡训练调试后，移植到docker服务器的过程中出现了如下所示n多bug
在这里插入图片描述

经过 pytorch版本，MMCV版本，和CUDA版本地不停调试，结合workstation和docker GPU的型号和CUDA版本差异，定位到问题出在了GPU架构的差异对MMCV框架的影响

详见

workstation的GPU为GeForce RTX 2080 Ti,为Turing架构，而docker内的GPU为Tesla V100-SXM2-32GB，为Volta架构，因此根据起架构特性在安装MMCV时需要添加架构参数

TORCH_CUDA_ARCH_LIST=7.0 pip install mmcv-full

华为云开发者联盟

为开发者提供学习成长、分享交流、生态实践、资源工具等服务，帮助开发者快速成长。

更多推荐

cover

华为云开发者桌面全新发布CodeArts IDE for Python

华为云开发者联盟

cover

理论+实践，带你了解分布式训练

华为云开发者联盟

cover

Sermant在异地多活场景下的实践

华为云开发者联盟

所有评论(0)

查看更多评论

Chaossll

@weixin_44493291

已为社区贡献5条内容