🔧 Engineering/📁 GPU & Hardware

GPU 모듈 교체 후 펌웨어 업데이트

만두개 2026. 4. 22. 11:23
반응형
SMALL

GPU 모듈 교체 후에는 GPU 모듈 간 펌웨어 버전이 동일한지 확인하고 맞춰줘야 함


1. 펌웨어 버전 확인

nvidia-smi -q

확인 내용:

  • VBIOS Version
  • GPU 간 펌웨어 버전 차이 여부

교체된 GPU와 기존 GPU의 펌웨어가 다르면 동일한 버전으로 맞춰줘야 함


2. GPU Tray 펌웨어 업데이트

GPU 개별 업데이트가 아니라 GPU Tray 단위로 펌웨어 업데이트 진행

참고:
https://docs.nvidia.com/dgx/dgxh100-fw-update-guide/sequence.html

 

Firmware Update Steps — NVIDIA DGX H100/H200 Firmware Update Guide

Update the firmware on the network cards. Note During the update, the mlxfwmanager command will report the ConnectX-7 device identified as /dev/mst/mt4129_pciconf0 cannot be updated as shown in the following error message: -E- Failed to query /dev/mst/mt41

docs.nvidia.com

 

수행 방법

gpu_tray.json다음 내용을 포함하는 파일을 생성 :

{
    "Targets" :["/redfish/v1/UpdateService/FirmwareInventory/HGX_0"]
}

 

펌웨어를 업데이트 :

nvfwupd -t ip=<bmc-ip-address> user=<bmc-username> password=<bmc-password> update_fw \
  -p nvfw_DGX-HGX-H100-H200x8_0014_251020.1.0.fwpkg -y -s gpu_tray.json

GPU Tray에 포함된 구성 요소:

  • VBIOS
  • NVSwitch
  • EROT
  • FPGA

3. 업데이트 상태 확인

curl -k -u <bmc-user>:<bmc-password> \
https://<bmc-ip>/redfish/v1/Chassis/HGX_ERoT_BMC_0 | jq
 

확인 항목:

BackgroundCopyStatus: Completed

4. 시스템 재부팅

reboot
 

gpu만 업데이트 하는 경우 reboot으로도 정상 동작 확인됨


5. 진단 로그 확인

부팅 후 각 노드 접속하여 실행

dcgmi diag -r 3 | tee 260421_dcgmi_log
 

확인 내용:

  • GPU 상태 정상 여부
  • 교체 후 이상 여부
  • 로그 저장
반응형
LIST