事件描述

头天晚上刚训练完,为了快速关闭我的ubuntu,按了电源键直接关机(之前一直都是使用shutdown命令关机,这样默认会在1分钟之后才关机),次日开机发现nvidia-smi命令失效了,错误如下,而且重启计算机无法解决。

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

但nvcc -V的命令依然是有效的,度娘了好几个方法,最后发现最好用的是如下方法:

解决方法

获取已经安装的驱动版本 

(base) xman@XMan18:~/$ ls /usr/src | grep nvidia

nvidia-455.32.00

 安装dkms(Dynamic Kernel Module Support)

sudo apt-get install dkms 

将系统存在的驱动版本号添加-v 之后

sudo dkms install -m nvidia -v 455.32.00

随后熟悉的界面有回来了 。

原因分析与预防:

我是在关闭python训练任务之后,立即强制关机可能导致了驱动文件损坏,使用dkms后将损坏或者丢失的文件补全,所以关机还应该使用更加稳妥的方法应该是使用shutdown命令,让系统将挂起的任务处理完毕后自己关机。

参考:

NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. - AI菌的个人空间 - OSCHINA - 中文开源技术交流社区

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐