【BUG】MMCV的坑:ImportError: /xxxx/mmcv/_ext.cpython-38-x86_64-linux-gnu.so: undefined symbol: _ZN6caffe
BUG如下ImportError: /home/hadoop-cvml/.conda/envs/masktrackrcnn_cu102/lib/python3.8/site-packages/mmcv/_ext.cpython-38-x86_64-linux-gnu.so: undefined symbol: _ZN6caffe28TypeMeta21_typeMetaDataInstanceId
·
BUG如下
ImportError: /home/hadoop-cvml/.conda/envs/masktrackrcnn_cu102/lib/python3.8/site-packages/mmcv/_ext.cpython-38-x86_64-linux-gnu.so: undefined symbol: _ZN6caffe28TypeMeta21_typeMetaDataInstanceIdEEPKNS_6detail12TypeMetaDataEv
RuntimeError: CUDA error: no kernel image is available for execution on the device
问题描述
在workstation机器上完成maskrcnn的单卡和多卡训练调试后,移植到docker服务器的过程中出现了如下所示n多bug
经过 pytorch版本,MMCV版本,和CUDA版本地不停调试,结合workstation和docker GPU的型号和CUDA版本差异,定位到问题出在了GPU架构的差异对MMCV框架的影响
详见
workstation的GPU为GeForce RTX 2080 Ti,为Turing架构,而docker内的GPU为Tesla V100-SXM2-32GB,为Volta架构,因此根据起架构特性在安装MMCV时需要添加架构参数
TORCH_CUDA_ARCH_LIST=7.0 pip install mmcv-full
更多推荐
已为社区贡献5条内容
所有评论(0)