🔧 Engineering/📁 GPU & Hardware

DGX H100 GPU 모듈 교체 전 확인 방법 (GPU ↔ SXM ↔ Serial 매핑)

만두개 2026. 4. 22. 09:32
반응형
SMALL

1. nvidia-smi에서 문제 GPU 확인

nvidia-smi
  • GPU 온도 확인
  • 특정 GPU만 온도가 튀는지 확인

GPU 온도 문제의 경우 혼자 온도가 튀는 GPU를 찾으면 됨


2. GPU 번호 + Bus ID 확인

nvidia-smi --query-gpu=index,pci.bus_id --format=csv

문제 GPU의 Bus ID 확인


3. Serial Number 확인

nvidia-smi -q -i <GPU번호>

Bus ID 기준으로 해당 GPU 찾아서 Serial Number까지 확인

교체 대상 식별용


4. IPMI에서 SXM 확인

ipmitool sel elist
 

GPU 온도 문제의 경우

Upper Critical going high 로 검색하면 어떤 SXM에서 문제 발생했는지 확인 가능

5. dmidecode로 물리 위치 매핑

dmidecode -t 9 | grep -Ei Designation
 

어느 슬롯에 연결된 GPU인지 확인 가능

반응형
LIST