기존의 2080ti 서버를 쿠버네티스 서버팜으로 사용하기 위해 Rocky Linux 9.5 기반의 GPU 서버로 다시 세팅했다.
세팅엔 공식 Docs를 참고하였다. [NVIDIA Docs][Rocky Docs]
1. 설치 준비
드라이버 설치를 위해 필요한 패키지들을 설치한다.
$ sudo dnf install epel-release -y $ sudo dnf groupinstall "Development Tools" -y $ sudo dnf install kernel-devel -y $ sudo dnf install dkms -y
2. GPU 드라이버 및 CUDA 설치
드라이버 설치를 위해 필요한 패키지들을 설치한다.
간혹 latest-dkms이 설치되지 않는 경우가 있다.
open-dkms으로 설치하거나 추후 lastest-dkms으로 모듈을 변경해주면 문제가 해결된다.
$ sudo dnf config-manager --add-repo http://developer.download.nvidia.com/compute/cuda/repos/rhel9/$(uname -i)/cuda-rhel9.repo $ sudo dnf install kernel-headers-$(uname -r) kernel-devel-$(uname -r) tar bzip2 make automake gcc gcc-c++ pciutils elfutils-libelf-devel libglvnd-opengl libglvnd-glx libglvnd-devel acpid pkgconf dkms -y $ sudo dnf module install nvidia-driver:latest-dkms -y # 오류가 나는 경우 sudo dnf -y module install nvidia-driver:open-dkms -y로 대체
기존의 NVIDIA 드라이버(NOUVEAU)를 비활성화한다.
$ sudo grubby --args="nouveau.modeset=0 rd.driver.blacklist=nouveau" --update-kernel=ALL $ sudo reboot
이제 CUDA를 설치하자. [CUDA]
최신 버전의 드라이버를 설치했기에 CUDA Toolkit 또한 최신 버전으로 설치하면 되나, 혹시 모르니 호환성을 항상 확인하자. [Compatibility]

위 홈페이지에서 안내하는 방법대로 설치하면 된다.
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel9/x86_64/cuda-rhel9.repo $ sudo dnf clean all $ sudo dnf -y install cuda-toolkit-12-8
정상적으로 설치됐다면 nvidia-smi 명령어가 정상적으로 실행될 것이다.
만약 드라이버가 호환이 안된다는 등의 문제가 발생하면 드라이버의 버전을 제대로 맞추거나 드라이버 종류를 바꾸어 설치하면 된다.
$ dnf -y module switch-to nvidia-driver:latest-dkms --allowerasing 또는 $ dnf -y module switch-to nvidia-driver:open-dkms --allowerasing
3. cuDNN 설치
CUDA를 설치한 후
딥러닝 연산을 가속화하는 라이브러리를 설치한다. [NVIDIA Docs]
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel9/x86_64/cuda-rhel9.repo $ sudo dnf clean all $ sudo dnf -y install cudnn
4. 추가 패키지 설치 & 설정
공식 Docs에서 권장하는 대로 추가 패키지를 설치하고 PATH를 설정한다. [NVIDIA Docs]
$ sudo dnf install cuda-toolkit $ sudo dnf install nvidia-gds $ export PATH=/usr/local/cuda-12.8/bin${PATH:+:${PATH}}
끝이다.