🔧 Engineering/📁 GPU & Hardware

CPU Tray 교체 후 펌웨어 정렬 작업

만두개 2026. 3. 25. 17:46
반응형
SMALL

CPU Tray 교체 이후에는 하드웨어만 맞춘 상태이며, 각 구성 요소의 펌웨어 버전을 맞추는 작업이 필요하다.


1. 왜 펌웨어를 맞추는가

  • Tray마다 펌웨어 버전이 다를 수 있음
  • 버전 mismatch 발생 시

문제

  1. 장치 인식 불가
  2. 네트워크 불량
  3. GPU / NVLink 오류
  4. 부팅 문제

2. 확인 대상

▪︎ 필수 확인 항목

  • BMC firmware
  • BIOS (SBIOS)
  • ConnectX-7 NIC firmware
  • OSFP InfiniBand firmware

3. 작업 순서

1) BMC 접속

  • BMC Web 또는 SSH 접속
  • 현재 펌웨어 버전 확인
 

2) NIC 펌웨어 확인 (중요)

mst start
mlxfwmanager --query

 

 ConnectX-7 버전 확인


3) IB 포트 확인

ibstat

 Link 상태 확인


4) 펌웨어 업그레이드

▪︎ Mellanox (ConnectX-7)

mlxfwmanager --query
mlxfwmanager --update
 

또는

flint -d <device> -i <fw.bin> burn

▪︎ OSFP (InfiniBand)

※ DGX H100/H200 Service Manual 기준 + 실무 절차

OSFP 포트는 ConnectX-7 NIC 기반 InfiniBand 인터페이스이며, 펌웨어는 별도로 존재하는 것이 아닌 NIC 펌웨어에 포함되어 함께 관리된다.

① 디바이스 확인

mst start
mst status

→ /dev/mst/... 디바이스 확인

② 현재 펌웨어 확인

mlxfwmanager

→ FW Version 확인

(업데이트 전)
현재 노드 vs 정상 노드 펌웨어 버전 비교

③ 펌웨어 업데이트

mlxfwmanager --update
 

또는

flint -d /dev/mst/<device> -i fw.bin burn

④ 재부팅

reboot

⑤ 정상 동작 확인

ibstat
  • Active → 정상
  • Down → 문제

☆ 핵심

  • 모든 포트 동일 버전 유지
  • 노드 간 버전 불일치 금지

5) BIOS / BMC 확인

  • BIOS 버전 확인
  • BMC 버전 확인

필요 시 업데이트


4. 작업 후 확인

▪︎ GPU

nvidia-smi

▪︎ NVLink

nvidia-smi topo -m

▪︎ IB

ibstat

▪︎ NIC

mlxfwmanager

5. 실무 포인트

  • 무조건 “같은 버전”으로 맞추는 게 핵심
  • 일부만 다르면 문제 발생
  • NIC 펌웨어 → 가장 많이 문제 발생

6. 실패 포인트

  • mst 안 올라감
  • firmware 버전 mismatch
  • IB link down
반응형
LIST