반응형
SMALL

1. nvidia-smi에서 문제 GPU 확인
nvidia-smi
- GPU 온도 확인
- 특정 GPU만 온도가 튀는지 확인
GPU 온도 문제의 경우 혼자 온도가 튀는 GPU를 찾으면 됨
2. GPU 번호 + Bus ID 확인
nvidia-smi --query-gpu=index,pci.bus_id --format=csv
문제 GPU의 Bus ID 확인
3. Serial Number 확인
nvidia-smi -q -i <GPU번호>
Bus ID 기준으로 해당 GPU 찾아서 Serial Number까지 확인
교체 대상 식별용
4. IPMI에서 SXM 확인
ipmitool sel elist
GPU 온도 문제의 경우
Upper Critical going high 로 검색하면 어떤 SXM에서 문제 발생했는지 확인 가능
5. dmidecode로 물리 위치 매핑
dmidecode -t 9 | grep -Ei Designation
어느 슬롯에 연결된 GPU인지 확인 가능
반응형
LIST
'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글
| GPU 모듈 교체 후 펌웨어 업데이트 (0) | 2026.04.22 |
|---|---|
| GPU 모듈 교체(H100 기준) (0) | 2026.04.22 |
| Dell iDRAC / HP iLO 계정 초기화 및 비밀번호 재설정 방법 (0) | 2026.03.31 |
| GPU 서버 랙마운트, 벤더별 레일 설치 방식 (3) | 2026.03.30 |
| UPMF 정리 (mlxfwmanager 보다가 알게 된 개념) (0) | 2026.03.26 |