— nvidia-smi 오류 발생 시 확인해야 할 단계별 체크리스트
2026.03.03 - [🔧 Engineering/📁 GPU & Hardware] - NVIDIA-SMI 보는 법 정리
NVIDIA-SMI 보는 법 정리
GPU 서버를 운영하다 보면 가장 먼저 확인하게 되는 명령어가 nvidia-smi 다.실제로 GPU 서버 점검 방법의 기본은 이 명령어를 정확히 읽는 것에서 시작한다.1. nvidia-smi란?nvidia-smi는 NVIDIA GPU 상태를 확
mandoog.tistory.com
1. GPU가 인식되지 않는 대표적인 증상
GPU 서버에서 다음과 같은 상황이 발생할 수 있다.
- nvidia-smi 실행 시 오류 발생
- GPU 목록이 표시되지 않음
- “No devices were found” 출력
- 드라이버 통신 오류 메시지 발생
이 경우 당황하지 말고,
아래 순서대로 점검하는 것이 기본적인 GPU 서버 점검 방법이다.
2. 1단계 — nvidia-smi 실행 확인
nvidia-smi
✔ 정상
GPU 모델 및 상태 출력
❌ 오류 예시
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.
→ 드라이버 문제 또는 커널 모듈 문제 가능성
3. 2단계 — 드라이버 로드 여부 확인
lsmod | grep nvidia
출력이 없다면
드라이버가 로드되지 않은 상태다.
드라이버 상태 확인:
systemctl status nvidia-persistenced
4. 3단계 — PCI 장치 인식 여부 확인
GPU가 물리적으로 인식되는지 확인한다.
lspci | grep -i nvidia
✔ 출력 있음
하드웨어는 인식됨 → 드라이버/소프트웨어 문제 가능성
❌ 출력 없음
물리적 문제 가능성:
- GPU 장착 불량
- BIOS 설정 문제
- PCI 슬롯 이슈
5. 4단계 — 커널 로그 확인 (XID 에러)
GPU 에러는 커널 로그에 남는다.
dmesg | grep -i xid
XID 에러가 있다면
GPU 내부 오류 가능성이 높다.
이 단계는 실무에서 자주 사용하는 GPU 사용률 확인 방법과는 별개로,
하드웨어 이상 여부를 판단하는 데 중요하다.
6. 5단계 — 전력 및 온도 확인
GPU가 인식되더라도
전력 제한 또는 과열 문제로 정상 동작하지 않을 수 있다.
nvidia-smi -q | grep -i power
온도 확인:
nvidia-smi
7. 점검 흐름 정리
GPU 인식 문제 발생 시 기본 점검 순서:
1. nvidia-smi 실행
2. 드라이버 로드 확인
3. lspci로 PCI 인식 확인
4. dmesg로 XID 확인
5. 전력/온도 점검
GPU 서버 점검 방법은 무작정 재부팅이 아니라 계층별 확인이다.
8. 정리
GPU가 인식되지 않을 때는 드라이버 → 커널 → 하드웨어 순으로 내려가며 점검한다.
단계별로 확인하면 원인을 빠르게 좁힐 수 있다.
'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글
| DGX H100 / H200 펌웨어 업데이트 정리 (0) | 2026.03.04 |
|---|---|
| BMC란 무엇인가 (0) | 2026.03.03 |
| ECC 에러란 무엇인가? (0) | 2026.03.03 |
| NVIDIA XID 에러 정리 (0) | 2026.03.03 |
| NVIDIA-SMI 보는 법 정리 (0) | 2026.03.03 |