最近需要重装一下nVidia和cuda,因此在此记录一下。

1. 前提准备

前提机器上面有支持CUDA的Nvidia GPU,查看支持CUDA的GPU列表:

https://developer.nvidia.com/cuda-gpus

 lspci | grep -i nvidia

重装服务器使用GTX750

验证系统是否是受支持的Linux版本

uname -m && cat /etc/redhat-release

 到这里查看受支持的Linux版本:

Installation Guide Linux :: CUDA Toolkit Documentation

验证系统是否有GCC编译环境

gcc -v

 没有的话需要先安装GCC,Centos7的最小化安装一般勾选上开发软件都会自动安装GCC

  • 验证系统是否安装了正确的内核头文件和开发包
sudo yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)

2.开始安装

禁用nouveau

nouveau是一个第三方开源的Nvidia驱动,一般Linux安装的时候默认会安装这个驱动。 这个驱动会与Nvidia官方的驱动冲突,在安装Nvidia驱动和和CUDA之前应先禁用nouveau

查看系统是否正在使用nouveau

lsmod | grep nouveau

 如果有显示内容,则进行以下的步骤: Centos7禁用方法

#新建一个配置文件
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
#写入以下内容
blacklist nouveau
options nouveau modeset=0
#保存并退出
:wq
#备份当前的镜像
sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
#建立新的镜像
sudo dracut /boot/initramfs-$(uname -r).img $(uname -r)
#重启
sudo reboot
#最后输入上面的命令验证
lsmod | grep nouveau

安装驱动

GPU 云服务器正常工作需安装正确的基础设施软件,对 NVIDIA 系列 GPU 而言,有两个层次的软件包需要安装:

  • 驱动 GPU 工作的硬件驱动程序。
  • 上层应用程序所需要的库。

若把 NVIDIA GPU 用作通用计算,需要安装 GeForce Driver + CUDA。

安装驱动后缀分为.run和.rpm

1.打开 NVIDIA 驱动下载链接 Advanced Driver Search | NVIDIA 。

2.选择支持 RPM 或者RUN的操作系统,并获取该包的下载链接。例如:选择 CentOS 7.x, 得到下载链接:Download NVIDIA, GeForce, Quadro, and Tesla Drivers

 

 按照提示下载并安装驱动

 3.使用rpm命令安装 rpm 包。

rpm -i nvidia-diag-driver-local-repo-XXX.rpm

 4.使用yum命令清除缓存。

yum clean all

 5.使用yum命令安装驱动。

yum install cuda-drivers

6.重启机器

reboot

7.运行nvidia-smi能输出正确信息代表驱动安装成功。

8.使用sh命令安装run包。

# 赋权限
chmod -R 777 NVIDIA-Linux-x86_64-470.94.run
# 运行命令
sudo sh NVIDIA-Linux-x86_64-470.94.run

 注:如果使用GUI安装包,可能会出现如下错误

You appear to be running an X server; please exit X before installing.

因此,最好使用ssh连接服务器或者虚拟机,而不是使用GUI的图形化界面进行操作。

关闭X server的方法如下:

​​​​​​Liunx 环境下关闭 X 服务_桐原因的博客-CSDN博客

================后面更新===============

好像找到不用关闭GUI图形界面的方法

sudo sh NVIDIA-Linux-x86_64-440.44.run -no-x-check -no-nouveau-check -no-opengl-files

 链接:双系统下 Ubuntu安装NVIDIA显卡驱动及错误解决办法 - 知乎

3.安装 CUDA

CUDA (Compute Unified Device Architecture) 是显卡厂商 NVIDIA 推出的运算平台。 CUDA™ 是一种由 NVIDIA 推出的通用并行计算架构,该架构使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。 开发人员现在可以使用 C 语言, C++ , FORTRAN 来为 CUDA™ 架构编写程序,所编写出的程序可以在支持 CUDA™ 的处理器上以超高性能运行。
GPU 云服务器采用 NVIDIA 显卡,需要安装 CUDA 开发运行环境。

1.CUDA驱动下载 https://developer.nvidia.com/cuda-75-downloads-archive 。

2.选择操作系统和安装包。以 CentOS 7.9 64 位为例,可按如下方式进行选择:

 下载rpm安装包

3.在 CUDA 安装包所在目录下运行如下命令:

sudo rpm -i cuda-repo-rhel7-9-2-local-9.2.148-1.x86_64.rpm
sudo yum clean all
sudo yum install cuda

 4.在/usr/local/cuda/samples/1_Utilities/deviceQuery目录下,执行make命令,可以编译出deviceQuery程序。

5.执行deviceQuery正常显示设备信息,此刻认为CUDA安装正确。

 =================更新===============

如果使用rpm文件报错,则考虑使用run文件进行安装。

下载地址:

CUDA Toolkit Archive | NVIDIA Developer

我安装是是10.1版本,可以离线安装。10.2的版本可以选择在线下载和离线下载。

下载run文件进行安装

sh cuda_*.run

建议最好不要使用GUI图形化界面操作,容易报错。

安装 CUDNN

参考:

Centos 7 安装 Nvidia GPU 驱动及 CUDA - 开发者头条

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐