CentOS GPU 配置

一、检查物理及软件环境

lspci | grep -i nvidia 
# 检查是否插入GPU卡

uname -m && cat /etc/redhat-release 
# 验证系统是否是受支持的Linux版本 
# 参考连接 http://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#system-requirements

yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r) gcc 
# 安装编译器及内核头文件和开发包

二、屏蔽系统自带Nouveau显卡驱动

vim /lib/modprobe.d/dist-blacklist.conf  
# 修改该文件

blacklist nouveau
options nouveau modeset=0
# 添加如上两行

# blacklist nvidiafb
# 删除或注释上一行

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
# 备份当前的镜像

dracut /boot/initramfs-$(uname -r).img $(uname -r)
# 建立新镜像

systemctl set-default multi-user.target
# 修改运行级别为纯文本模式

reboot
# 重启

三、驱动安装

lsmod | grep nouveau
# 检查nouveau是否已经禁用

./NVIDIA-Linux-x86_64-470.57.02.run --no-opengl-files --ui=none --no-questions --accept-license
# 执行安装命令,此处以470驱动举例
# 驱动下载链接 http://www.nvidia.com/Download/Find.aspx

nvidia-smi
# 检查驱动安装完成情况 
# 配置快速执行 nvidia-smi -pm 1

四、CUDA安装

./cuda_11.4.0_470.42.01_linux.run --silent --toolkit --samples --no-opengl-libs
# 执行安装命令,此处以470匹配的11.4 CUDA举例
# CUDA下载链接 https://developer.nvidia.com/cuda-downloads

五、NVLink Third Generation 配置安装

# 下载对应驱动版本 nvidia-fabric-manager 及 nvidia-fabric-manager-devel 的RPM包并安装
# 新旧驱动版本的名字不同,注意区分
# 下载链接 https://developer.download.nvidia.cn/compute/cuda/repos/rhel7/x86_64/

systemctl enable nvidia-fabricmanager --now
# 配置开机及启动
systemctl status nvidia-fabricmanager
# 安装完成后查看服务状态
# 容器使用需在物理机启动

六、 GPU切换模式
TCC驱动程序(Tesla Compute Cluster)主要用于计算操作(如 Nvidia 控制面板的使用模式所示)
WDDM驱动程序( Windows 显示驱动程序模型)用于图形用途

切换命令:
nvidia-smi -fdm 0
# 0标识 WDDM 驱动程序,而1标识 TCC 驱动程序

NVIDIA GPU 分为三类:
GeForce——通常默认为 WDDM 模式;用于游戏图形。
Quadro - 通常默认为 WDDM 模式,但也经常用作 TCC 计算设备。
Tesla - 通常默认为 TCC 模式。当前的驱动程序需要 GRID 许可证才能在 Tesla 设备上启用 WDDM。

如果遇到

"Unable to set driver model for GPU {GPU-ID}: Not supported
Treating as warning and moving on.
All done."

原因是当前卡不支持模式,解决方案
GRID 许可证允许用户 下载 NVIDIA GRID 和虚拟 GPU 驱动程序,以便能够从 TCC 模式更改为 WDDM 模式。

GRID 许可证需要一个 通过 订阅购买获得的Nvidia 企业帐户,这应该在 GPU 的订购阶段考虑。 如果还没有这样做,可以创建一个90 天的试用帐户。完成后,可以从此页面下载NVIDIA vGPU 软件。 安装后,默认情况下应启用 WDDM 模式。这可以使用命令nvidia-smi检查。如果没有,仍然可以使用命令强制

作者:admin  创建时间:2023-04-26 11:05
最后编辑:admin  更新时间:2024-07-17 15:26