环境说明:
Centos7 +Nvidia T4显卡
问题现象:
运行一段时间后,显卡掉卡,需要重新安装驱动解决。并且日志中报错:

Apr 9 12:03:32  kernel: NVRM: GPU 0000:b2:00.0: rm_init_adapter failed,
device minor number 7
Apr 9 12:03:48  kernel: NVRM: GPU 0000:14:00.0: Failed to copy vbios to
system memory.
Apr 9 12:03:48  kernel: NVRM: GPU 0000:14:00.0: RmInitAdapter failed!
(0x30:0xffff:755)
Apr 9 12:03:48  kernel: NVRM: GPU 0000:14:00.0: rm_init_adapter failed,
device minor number 0
Apr 9 12:03:48  kernel: NVRM: GPU 0000:15:00.0: Failed to copy vbios to
system memory.
Apr 9 12:03:48  kernel: NVRM: GPU 0000:15:00.0: RmInitAdapter failed!
(0x30:0xffff:755)
Apr 9 12:03:48  kernel: NVRM: GPU 0000:15:00.0: rm_init_adapter failed,
device minor number 1

问题解决:
显卡使用时会加载驱动,未使用时会卸载显卡驱动,驱动循环加载导致系统bug,出现掉卡,宕机等情况。所以需要把显卡驱动持久化,保持加载状态。

显卡持久化介绍:
启用持久性模式后,即使没有活动的客户端 (such as X11 or nvidia-smi),NVIDIA 驱动程序也会保持加载状态。这样可以最大程度地减少与运行依赖的应用程序 (例如 CUDA 程序) 相关的驱动程序加载延迟。适用于所有支持 CUDA 的产品。仅 Linux。

Persistence-M (Persistence Mode)
persistence mode 持续模式默认关闭。persistence mode 能够让 GPU 更快响应任务,待机功耗增加。关闭 persistence mode 同样能够启动任务。

启动命令:

nvidia-smi -pm 1

启动之前:
在这里插入图片描述

启动之后:
在这里插入图片描述

参考链接:
https://www.freesion.com/article/4201198085/

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐