반응형
SMALL
NVIDIA 드라이버가 커널 로그(dmesg)에 기록하는 GPU 에러 코드 정리
NVRM이란
NVRM = NVIDIA Resource Manager
= NVIDIA 드라이버의 커널 모듈
= dmesg에 메시지 남길 때 prefix로 사용
dmesg에서 NVRM: 으로 시작하는 줄 = NVIDIA 드라이버 커널 모듈이 남긴 메시지
XID란
XID = NVIDIA 드라이버가 GPU 에러 발생 시
커널 로그(dmesg)에 기록하는 에러 코드
XID 확인 방법
# dmesg에서 XID 확인
dmesg | grep -i xid
# 실시간 모니터링
dmesg -w | grep -i xid
# journalctl에서 확인
journalctl -b | grep -i xid
# 에러 레벨로 필터
journalctl -b -p err | grep -i nvidia
XID 출력 예시
NVRM: Xid (PCI:0000:1b:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus
NVRM: Xid (PCI:0000:1b:00): 48, pid=1234, name=python, FB fault
NVRM: Xid ← NVIDIA 드라이버 에러
PCI:0000:1b:00 ← 에러 발생 GPU의 PCI 주소
79 ← XID 코드 (에러 종류)
pid=1234 ← 에러 발생 프로세스 ID
name=python ← 에러 발생 프로세스 이름
주요 XID 코드
| 8 | GPU 메모리 에러 | ECC 에러 확인 |
| 13 | 그래픽 엔진 예외 | 드라이버 재시작 |
| 31 | GPU 메모리 페이지 오류 | 메모리 불량 의심 |
| 43 | GPU 드라이버 오류 | 드라이버 재설치 |
| 45 | Preemptive cleanup 에러 | GPU 리셋 필요 |
| 48 | DBE (Double Bit ECC Error) | HW 불량 의심 |
| 63 | Row Remapping 실패 | GPU 교체 검토 |
| 74 | NVLink 에러 | NVLink/NVSwitch 점검 |
| 79 | GPU가 버스에서 떨어짐 | GPU/PCIe 불량 의심 |
| 92 | High SBE (Single Bit ECC) | 모니터링 강화 |
ECC 에러 추가 확인
# ECC 에러 현황
nvidia-smi -q -d ECC
# XID + ECC 동시 확인
dmesg | grep -iE "xid|ecc"
주의사항
| 79 (GPU 버스 이탈) | 🔴 즉각 조치 필요 |
| 48 (DBE ECC) | 🔴 HW 불량 의심 |
| 74 (NVLink) | 🟠 NVSwitch 점검 |
| 8, 31 (메모리) | 🟠 모니터링 강화 |
| 13, 43 (드라이버) | 🟡 드라이버 재시작 |
반응형
LIST
'🔧 Engineering > 📁 Study Notes' 카테고리의 다른 글
| 혼자 해보는 점검 실습 (0) | 2026.04.22 |
|---|---|
| 명령어 옵션 상세 정리 (0) | 2026.04.07 |
| NVSwitch 유무에 따른 NVIDIA 패키지 설치 가이드 (0) | 2026.04.03 |
| LVM 생성 및 마운트 가이드 (0) | 2026.04.02 |
| BCM 노드 재설치 — autoinstall auto → full 변경 가이드 (0) | 2026.04.01 |