🔧 Engineering/📁 GPU & Hardware

DGX H100 / H200 펌웨어 업데이트 정리

만두개 2026. 3. 4. 09:32
반응형
SMALL
참고: NVIDIA DGX H100 Firmware Update Guide 기준
https://docs.nvidia.com/dgx/dgxh100-fw-update-guide/
 

DGX H100/H200 Firmware Update Guide — NVIDIA DGX H100/H200 Firmware Update Guide

 

docs.nvidia.com

 

마더보드 트레이에 있는 CPU, PCH, BMC 등의 구성요소
GPU 트레이 속 GPU, NVSwich, HMC 등의 구성요소

0. 사전 준비

 

BMC IP / 계정 확인

  • 대상 노드 workload 종료
  • 패키지 파일 준비
    • nvfw_DGX_250629.1.0.fwpkg
    • nvfw_DGX-HGX-H100-H200x8_0014_250724.1.0.fwpkg

 


1. 현재 버전 확인 (사전 비교)

nvfwupd --target ip=<bmc-ip> user=<user> password=<pw> \
show_version -p nvfw_DGX_250629.1.0.fwpkg \
nvfw_DGX-HGX-H100-H200x8_0014_250724.1.0.fwpkg
 

✔ 현재 버전 vs 패키지 버전 비교
✔ 업데이트 필요 항목 확인


2. BMC Firmware 업데이트

nvfwupd -t ip=<bmc-ip> user=<user> password=<pw> update_fw \
-p nvfw_DGX_250629.1.0.fwpkg -y -s update_bmc.json

 

완료 후 BMC 재부팅:

ipmitool mc reset cold
 

3. MB_Tray 업데이트

nvfwupd -t ip=<bmc-ip> user=<user> password=<pw> update_fw \
-p nvfw_DGX_250629.1.0.fwpkg -y -s mb_tray.json
 

4. GPU_Tray 업데이트

nvfwupd -t ip=<bmc-ip> user=<user> password=<pw> update_fw \
-p nvfw_DGX-HGX-H100-H200x8_0014_250724.1.0.fwpkg -y -s gpu_tray.json
 

5. Background Copy 상태 확인

curl -s -k -u <bmc-user>:<bmc-password> \
-H content-type:application/json \
-X GET https://<bmc-ip>/redfish/v1/Chassis/HGX_ERoT_BMC_0 | jq
 

출력 확인:

"BackgroundCopyStatus": "Completed"
 

✔ Completed 확인 후 다음 단계 진행


6. 시스템 Cold Reset

ipmitool chassis power cycle
 

7. 업데이트 후 버전 재확인

nvfwupd --target ip=<bmc-ip> user=<user> password=<pw> \
show_version -p nvfw_DGX_250629.1.0.fwpkg \
nvfw_DGX-HGX-H100-H200x8_0014_250724.1.0.fwpkg
 

✔ 업데이트 정상 반영 확인


8. BMC Background Copy Commit (Redfish)

HostBMC Commit

curl -k -u <bmc-user>:<pw> \
--request POST \
https://<bmc-ip>/redfish/v1/UpdateService/Actions/Oem/NvidiaUpdateService.CommitImage \
--header 'Content-Type: application/json' \
--data '{
"Targets": ["/redfish/v1/UpdateService/FirmwareInventory/HostBMC_0"]
}'

 

진행률 확인:

nvfwupd -t ip=<bmc-ip> user=<user> password=<pw> show_update_progress -i 1

✔ 100% 확인


9. BIOS Commit

curl -k -u <bmc-user>:<pw> \
--request POST \
https://<bmc-ip>/redfish/v1/UpdateService/Actions/Oem/NvidiaUpdateService.CommitImage \
--header 'Content-Type: application/json' \
--data '{
"Targets": ["/redfish/v1/UpdateService/FirmwareInventory/HostBIOS_0"]
}'
 

 

진행률 확인:

nvfwupd -t ip=<bmc-ip> user=<user> password=<pw> show_update_progress -i 2
 

✔ 100% 확인


10. 최종 Cold Reboot

가이드 기준:

Power cable 분리 후 5분 대기 → 재연결

완전 전원 차단 필요.

모두OK로 뜨면 끝! 


작업 흐름 요약

  1. show_version 비교
  2. BMC update
  3. MB_Tray update
  4. GPU_Tray update
  5. BackgroundCopyStatus 확인
  6. Power Cycle
  7. Commit (BMC / BIOS)
  8. Cold Reboot
  9. 버전 재확인

주의 사항

  • 중간 단계에서 전원 차단 금지
  • Commit 전에 상태 반드시 확인
  • 패키지 버전 호환성 체크
  • 클러스터 환경에서는 drain 후 작업
반응형
LIST

'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글

트랜시버  (0) 2026.03.04
Jetson AGX Thor r38.4.0 Flash + JetPack + CUDA Setup 정리  (0) 2026.03.04
BMC란 무엇인가  (0) 2026.03.03
ECC 에러란 무엇인가?  (0) 2026.03.03
NVIDIA XID 에러 정리  (0) 2026.03.03