🔧 Engineering/📁 Study Notes

NVIDIA 드라이버 로그 — NVRM XID 에러

만두개 2026. 4. 3. 14:24
반응형
SMALL

NVIDIA 드라이버가 커널 로그(dmesg)에 기록하는 GPU 에러 코드 정리


NVRM이란

NVRM = NVIDIA Resource Manager
= NVIDIA 드라이버의 커널 모듈
= dmesg에 메시지 남길 때 prefix로 사용

dmesg에서 NVRM: 으로 시작하는 줄 = NVIDIA 드라이버 커널 모듈이 남긴 메시지


XID란

XID = NVIDIA 드라이버가 GPU 에러 발생 시
      커널 로그(dmesg)에 기록하는 에러 코드

XID 확인 방법

# dmesg에서 XID 확인
dmesg | grep -i xid

# 실시간 모니터링
dmesg -w | grep -i xid

# journalctl에서 확인
journalctl -b | grep -i xid

# 에러 레벨로 필터
journalctl -b -p err | grep -i nvidia

XID 출력 예시

NVRM: Xid (PCI:0000:1b:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus
NVRM: Xid (PCI:0000:1b:00): 48, pid=1234, name=python, FB fault
NVRM: Xid          ← NVIDIA 드라이버 에러
PCI:0000:1b:00     ← 에러 발생 GPU의 PCI 주소
79                 ← XID 코드 (에러 종류)
pid=1234           ← 에러 발생 프로세스 ID
name=python        ← 에러 발생 프로세스 이름

주요 XID 코드

8 GPU 메모리 에러 ECC 에러 확인
13 그래픽 엔진 예외 드라이버 재시작
31 GPU 메모리 페이지 오류 메모리 불량 의심
43 GPU 드라이버 오류 드라이버 재설치
45 Preemptive cleanup 에러 GPU 리셋 필요
48 DBE (Double Bit ECC Error) HW 불량 의심
63 Row Remapping 실패 GPU 교체 검토
74 NVLink 에러 NVLink/NVSwitch 점검
79 GPU가 버스에서 떨어짐 GPU/PCIe 불량 의심
92 High SBE (Single Bit ECC) 모니터링 강화

ECC 에러 추가 확인

# ECC 에러 현황
nvidia-smi -q -d ECC

# XID + ECC 동시 확인
dmesg | grep -iE "xid|ecc"

주의사항

79 (GPU 버스 이탈) 🔴 즉각 조치 필요
48 (DBE ECC) 🔴 HW 불량 의심
74 (NVLink) 🟠 NVSwitch 점검
8, 31 (메모리) 🟠 모니터링 강화
13, 43 (드라이버) 🟡 드라이버 재시작
반응형
LIST