Featured image of post Linux Nvidia GPU 驱动离线更新(runfile)

Linux Nvidia GPU 驱动离线更新(runfile)

主要适用于离线环境

事前检查

一般来说驱动都是用的 runfile 安装的,apt 源安装驱动是近期流行的东西,而且需要网络。不过可以通过下面的命令检查

1
ls /usr/bin | grep nvidia-uninstall

如果能找到这个文件,那就是 .run file 安装的驱动

下载驱动

在这里下载驱动,选择你的系统、版本和 runfile 下载

https://developer.nvidia.com/cuda-downloads

卸载驱动

安装新版驱动前需要先卸载旧版本驱动

1
sudo /usr/bin/nvidia-uninstall

卸载时可能会出现类似下面的提示,不影响,直接 OK

理论上只需要卸载驱动就可以,只要你不切换到 apt 方式安装驱动,就不需要卸载 CUDA,CUDA 可以多版本并存

nvidia-container-toolkit 不需要卸载,更新驱动后还能继续用

卸载后建议重启服务器

安装驱动

与先前一样正常安装就可以,runfile 自带新版本 CUDA 和驱动

如果是新显卡,还会有开源和闭源驱动的选项,按照 Nvidia 的策略,建议是选择开源驱动

也可以选择更新 Container Toolkit,在下面这个地址里找到以下几个包并安装(根据自己的机器系统选择)

https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/

1
2
3
4
nvidia-container-toolkit
nvidia-container-toolkit-base
libnvidia-container-tools
libnvidia-container1

关于 SXM 显卡

SXM 显卡需要安装 Nvidia Fabric Manager,它需要与驱动版本严格匹配。但是某些时候 runfile 驱动版本号太新,Ubuntu 的 apt 源里还没有新版本的 Nvidia Fabric Manager,此时就需要从 Nvidia 的源里去下载 deb 包手动安装,下载 nvidia-fabricmanager_ 开头的那个 deb 包。

https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/

Photo by Yuri Krupenin on Unsplash