속도 < 방향
nvidia 드라이버 꼬임 현상 발생 : Failed to initialize NVML: Driver/library version mismatch 본문
카테고리 없음
nvidia 드라이버 꼬임 현상 발생 : Failed to initialize NVML: Driver/library version mismatch
import max 2026. 1. 30. 17:46도커 이미지를 올려서 사용자가 WebUI에서 학습을 요청하면 (학습 시작 버튼을 누르면) 학습용 컨테이너가 생성되도록 모듈을 만들던 와중 잘 올라가던 백엔드 컨테이너가 갑자기 로그에서 에러를 뱉는다.


Failed to initialize NVML: Driver/library version mismatch
버전이 맞지 않는다?
우선 nvidia-smi 를 쳐보니 역시나 안된다.

우선 로그를 확인한다.
sudo dmesg | grep -i nvrm

결국 버전이 안맞는다는 이야기이다.
가장 빠른 방법은 sudo reboot 이지만 저번에 sudo reboot 했다가 커널에서 boot 자체가 안된 경우가 있어서 굉장히 조심스럽다..
당시 램 빼고 강제로 주입한다음 램 하나씩 꼽으면서 겨우 서버를 살렸기 때문에 sudo reboot은 안하기로 했다.
내가 선택한 방법은 아래와 같다.
시스템 모듈 리스트 중에 nvidia 관련 모듈을 추출한다.
lsmod | grep nvidia

하나씩 지워준다.
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia
안지워질수도 있다.
rmmod: ERROR: Module nvidia_drm is in use 등의 에러가 발생한다면..
sudo lsof /dev/nvidia*
조회 후
sudo kill -9 <PID>
PID 프로세스 아이디로 킬해준다.
다 종료한 후 여기서 아무것도 안나오면
lsmod | grep nvidia
nvidia-smi 했을때 정상적으로 잡히는 걸 확인할 수 있다.