속도 < 방향

nvidia 드라이버 꼬임 현상 발생 : Failed to initialize NVML: Driver/library version mismatch 본문

카테고리 없음

nvidia 드라이버 꼬임 현상 발생 : Failed to initialize NVML: Driver/library version mismatch

import max 2026. 1. 30. 17:46

도커 이미지를 올려서 사용자가 WebUI에서 학습을 요청하면 (학습 시작 버튼을 누르면) 학습용 컨테이너가 생성되도록 모듈을 만들던 와중 잘 올라가던 백엔드 컨테이너가 갑자기 로그에서 에러를 뱉는다.

 

 

 

Failed to initialize NVML: Driver/library version mismatch

 

버전이 맞지 않는다?

 

우선 nvidia-smi 를 쳐보니 역시나 안된다.

 

우선 로그를 확인한다.

sudo dmesg | grep -i nvrm

결국 버전이 안맞는다는 이야기이다.

 

 

가장 빠른 방법은 sudo reboot 이지만 저번에 sudo reboot 했다가 커널에서 boot 자체가 안된 경우가 있어서 굉장히 조심스럽다..
당시 램 빼고 강제로 주입한다음 램 하나씩 꼽으면서 겨우 서버를 살렸기 때문에 sudo reboot은 안하기로 했다.

 

내가 선택한 방법은 아래와 같다.

 

시스템 모듈 리스트 중에 nvidia 관련 모듈을 추출한다.

lsmod | grep nvidia

 

하나씩 지워준다.

sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia

 

 

안지워질수도 있다.

rmmod: ERROR: Module nvidia_drm is in use 등의 에러가 발생한다면..

 

sudo lsof /dev/nvidia*

 

조회 후 

 

sudo kill -9 <PID>

 

PID 프로세스 아이디로 킬해준다.

 

 

다 종료한 후 여기서 아무것도 안나오면

lsmod | grep nvidia

 

 

 

nvidia-smi 했을때 정상적으로 잡히는 걸 확인할 수 있다.