반응형
SMALL
CPU Tray 교체 이후에는 하드웨어만 맞춘 상태이며, 각 구성 요소의 펌웨어 버전을 맞추는 작업이 필요하다.
1. 왜 펌웨어를 맞추는가
- Tray마다 펌웨어 버전이 다를 수 있음
- 버전 mismatch 발생 시
문제
- 장치 인식 불가
- 네트워크 불량
- GPU / NVLink 오류
- 부팅 문제
2. 확인 대상
▪︎ 필수 확인 항목
- BMC firmware
- BIOS (SBIOS)
- ConnectX-7 NIC firmware
- OSFP InfiniBand firmware
3. 작업 순서
1) BMC 접속
- BMC Web 또는 SSH 접속
- 현재 펌웨어 버전 확인
2) NIC 펌웨어 확인 (중요)
mst start
mlxfwmanager --query
ConnectX-7 버전 확인
3) IB 포트 확인
ibstat
Link 상태 확인
4) 펌웨어 업그레이드
▪︎ Mellanox (ConnectX-7)
mlxfwmanager --query
mlxfwmanager --update
또는
flint -d <device> -i <fw.bin> burn
▪︎ OSFP (InfiniBand)
※ DGX H100/H200 Service Manual 기준 + 실무 절차
OSFP 포트는 ConnectX-7 NIC 기반 InfiniBand 인터페이스이며, 펌웨어는 별도로 존재하는 것이 아닌 NIC 펌웨어에 포함되어 함께 관리된다.
① 디바이스 확인
mst start
mst status
→ /dev/mst/... 디바이스 확인
② 현재 펌웨어 확인
mlxfwmanager
→ FW Version 확인
(업데이트 전)
현재 노드 vs 정상 노드 펌웨어 버전 비교
③ 펌웨어 업데이트
mlxfwmanager --update
또는
flint -d /dev/mst/<device> -i fw.bin burn
④ 재부팅
reboot
⑤ 정상 동작 확인
ibstat
- Active → 정상
- Down → 문제
☆ 핵심
- 모든 포트 동일 버전 유지
- 노드 간 버전 불일치 금지
5) BIOS / BMC 확인
- BIOS 버전 확인
- BMC 버전 확인
→ 필요 시 업데이트
4. 작업 후 확인
▪︎ GPU
nvidia-smi
▪︎ NVLink
nvidia-smi topo -m
▪︎ IB
ibstat
▪︎ NIC
mlxfwmanager
5. 실무 포인트
- 무조건 “같은 버전”으로 맞추는 게 핵심
- 일부만 다르면 문제 발생
- NIC 펌웨어 → 가장 많이 문제 발생
6. 실패 포인트
- mst 안 올라감
- firmware 버전 mismatch
- IB link down
반응형
LIST
'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글
| mlxfwmanager 정리 (0) | 2026.03.26 |
|---|---|
| mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리 (0) | 2026.03.26 |
| DGX 설치(물리+초기설정) (0) | 2026.03.25 |
| 클러스터 / 노드 / Pod 개념 정리 (0) | 2026.03.25 |
| RJ45와 GG45차이, 랜 케이블 규격 정리 (CAT5e ~ CAT7) (0) | 2026.03.25 |