1.问题描述:

我今天本来要用GPU训练的,但不能用GPU了。经过问题的排查,我发现的我CUDA还在,CUDA没有问题。这说明是nvidia出现了问题。
我用的是Ubuntu18.04的双系统,在正常情况下,使用命令nvidia-smi就出来详细显卡信息了。
执行:

nvidia-smi

我的nvidia驱动之前是可以用的。使用nvidia-smi命令却出现了这样的提示:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. 
Make sure that the latest NVIDIA driver is installed and running.

重启了之后也还是这样!!!
我几个月前也遇到过今天这样同样的情况。我上次在网找了好多的教程,都没解决,还把电脑搞坏了,最后只得重装系统了。
今天在网上找到了一个有效的解决办法。亲测有效。接着往下看。

2.出现这个问题的原因:

ubuntu的内核版本升级后造成的问题。
在ubuntu升级内核组件后,会优先使用ubuntu内核版本高的版本,ubuntu会修改默认开机启动的内核版本(用最新的)。而最新的内核版本和原来的ubuntu其他组件起了冲突。无法连接nvidia驱动了。(你可以这样理解)

NVIDIA驱动是在低版本的时候安装,由于系统更新,内核版本升级导致NVIDIA无法应用在高内核版本。所以,说明是内核版本的问题,选择低版本的内核即可。

3.解决办法:

先上图。
下图是我的双系统启动的界面:
在这里插入图片描述
下图是我的ubuntu内核版本选择的界面(可在选中双系统启动界面的"Ubuntu 高级选项"后,点击enter键进入):
在这里插入图片描述

你需要知道的是,第一个选项是索引0,第二个是1,第三个是2,依此类推。(即GRUB菜单中的 Ubuntu为0,Ubuntu高级选项为1,…)

在我的情况下,我需要选择双系统启动的界面里的 “Ubuntu高级选项” 。
进入“Ubuntu高级选项”来到ubuntu内核版本选择的界面里,
我需要选“Ubuntu, Linux 5.4.0-87-generic”(“以前旧的内核版本”)

(1)设置

sudo gedit /etc/default/grub

将GRUB_DEFAULT设为:

#GRUB_DEFAULT=0
GRUB_DEFAULT="1> 2"

使用 ‘>’ 符号来指定有一个子菜单(注意符号 > 和数字 2 之间有空格,所以需要双引号)。在这种情况下,我在主菜单中选择第二个选项(索引1),在子菜单中选择第三个选项(索引2)。注意双引号要用英文的""。
保存后退出。

(2)一旦对/etc/default/grub进行了更改,请保存并运行以下命令来更新GRUB配置文件(必须,否则不生效),输入如下命令:

sudo update-grub

(3)重新启动
现在应该默认启动旧的内核版本。
进入ubuntu,再次执行命令nvidia-smi发现又可以正常使用了。问题解决。

其他:

1.尝试解决ubuntu就没有wifi适配器和蓝牙适配器的思路。

我在尝试不同的ubuntu版本的内核之后,发现我如果用更早的内核版本“Ubuntu, Linux 5.4.0-86-generic”,进入ubuntu后,电脑就没有wifi适配器和蓝牙适配器了。

反向推理一下,如果遇到ubuntu系统wifi适配器和蓝牙适配器的话,如果选择并下载使用合适的ubuntu内核版本应该可以解决。待尝试。

2.建议把ubuntu的软件和更新里面的更新关了,设置成“从不”。不然后面可能还会出现ubuntu内核更新造成nvidia驱动出错(GPU用不了的问题)。
在这里插入图片描述

本文参考的链接:
https://forum.ubuntu.org.cn/viewtopic.php?t=486436
https://blog.csdn.net/sinat_23619409/article/details/85220561

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐