解决Ubuntu Nvidia-smi的错误“NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver”
头天晚上刚训练完,为了快速关机,直接按了电源键将Ubuntu直接关机(之前一直都是使用shutdown命令关机,这样默认会在1分钟之后才关机),次日开机发现nvidia-smi命令失效了,错误如下,而且重启计算机无法解决。但nvcc -V的命令依然是有效的,度娘了好几个方法,最后发现最好用的是如下方法:安装dkms(Dynamic Kernel Module Support)将系统存在的驱动版本号
·
事件描述
头天晚上刚训练完,为了快速关闭我的ubuntu,按了电源键直接关机(之前一直都是使用shutdown命令关机,这样默认会在1分钟之后才关机),次日开机发现nvidia-smi命令失效了,错误如下,而且重启计算机无法解决。
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
但nvcc -V的命令依然是有效的,度娘了好几个方法,最后发现最好用的是如下方法:
解决方法
获取已经安装的驱动版本
(base) xman@XMan18:~/$ ls /usr/src | grep nvidia
nvidia-455.32.00
安装dkms(Dynamic Kernel Module Support)
sudo apt-get install dkms
将系统存在的驱动版本号添加-v 之后
sudo dkms install -m nvidia -v 455.32.00
随后熟悉的界面有回来了 。
原因分析与预防:
我是在关闭python训练任务之后,立即强制关机可能导致了驱动文件损坏,使用dkms后将损坏或者丢失的文件补全,所以关机还应该使用更加稳妥的方法应该是使用shutdown命令,让系统将挂起的任务处理完毕后自己关机。
参考:
更多推荐
已为社区贡献1条内容
所有评论(0)