🔧 Engineering/📁 GPU & Hardware

GPU 인식 안 될 때 점검 순서 정리

만두개 2026. 3. 3. 13:50
반응형
SMALL

 

— nvidia-smi 오류 발생 시 확인해야 할 단계별 체크리스트

2026.03.03 - [🔧 Engineering/📁 GPU & Hardware] - NVIDIA-SMI 보는 법 정리

 

NVIDIA-SMI 보는 법 정리

GPU 서버를 운영하다 보면 가장 먼저 확인하게 되는 명령어가 nvidia-smi 다.실제로 GPU 서버 점검 방법의 기본은 이 명령어를 정확히 읽는 것에서 시작한다.1. nvidia-smi란?nvidia-smi는 NVIDIA GPU 상태를 확

mandoog.tistory.com

 


1. GPU가 인식되지 않는 대표적인 증상

GPU 서버에서 다음과 같은 상황이 발생할 수 있다.

  • nvidia-smi 실행 시 오류 발생
  • GPU 목록이 표시되지 않음
  • “No devices were found” 출력
  • 드라이버 통신 오류 메시지 발생

이 경우 당황하지 말고,
아래 순서대로 점검하는 것이 기본적인 GPU 서버 점검 방법이다.


2. 1단계 — nvidia-smi 실행 확인

nvidia-smi
 

✔ 정상

GPU 모델 및 상태 출력

❌ 오류 예시

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.
 

→ 드라이버 문제 또는 커널 모듈 문제 가능성


3. 2단계 — 드라이버 로드 여부 확인

lsmod | grep nvidia
 

출력이 없다면
드라이버가 로드되지 않은 상태다.

 

드라이버 상태 확인:

systemctl status nvidia-persistenced
 

4. 3단계 — PCI 장치 인식 여부 확인

GPU가 물리적으로 인식되는지 확인한다.

lspci | grep -i nvidia
 

✔ 출력 있음

하드웨어는 인식됨 → 드라이버/소프트웨어 문제 가능성

❌ 출력 없음

물리적 문제 가능성:

  • GPU 장착 불량
  • BIOS 설정 문제
  • PCI 슬롯 이슈

5. 4단계 — 커널 로그 확인 (XID 에러)

GPU 에러는 커널 로그에 남는다.

dmesg | grep -i xid
 

XID 에러가 있다면
GPU 내부 오류 가능성이 높다.

 

이 단계는 실무에서 자주 사용하는 GPU 사용률 확인 방법과는 별개로,
하드웨어 이상 여부를 판단하는 데 중요하다.


6. 5단계 — 전력 및 온도 확인

GPU가 인식되더라도
전력 제한 또는 과열 문제로 정상 동작하지 않을 수 있다.

nvidia-smi -q | grep -i power
 

온도 확인:

nvidia-smi
 

7. 점검 흐름 정리

GPU 인식 문제 발생 시 기본 점검 순서:

1. nvidia-smi 실행
2. 드라이버 로드 확인
3. lspci로 PCI 인식 확인
4. dmesg로 XID 확인
5. 전력/온도 점검

 

GPU 서버 점검 방법은 무작정 재부팅이 아니라 계층별 확인이다.


8. 정리

GPU가 인식되지 않을 때는 드라이버 → 커널 → 하드웨어 순으로 내려가며 점검한다.

단계별로 확인하면 원인을 빠르게 좁힐 수 있다.

반응형
LIST

'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글

DGX H100 / H200 펌웨어 업데이트 정리  (0) 2026.03.04
BMC란 무엇인가  (0) 2026.03.03
ECC 에러란 무엇인가?  (0) 2026.03.03
NVIDIA XID 에러 정리  (0) 2026.03.03
NVIDIA-SMI 보는 법 정리  (0) 2026.03.03