반응형
SMALL

H200 7

mlxfwmanager 정리

mlxfwmanager는 Mellanox(NVIDIA) NIC의 펌웨어를 조회하고 업데이트할 때 사용하는 CLI 도구이다.1. 역할NIC 펌웨어 버전 확인현재 버전 vs 사용 가능 버전 확인펌웨어 업데이트 수행2. 기본 사용1) 디바이스 활성화mst startmst status→ /dev/mst/... 디바이스 확인2) 펌웨어 조회특정 장치를 조회mlxfwmanager -d --query 컴퓨터에 있는 모든 장치를 조회mlxfwmanager --query→ 확인 내용Device Type (ConnectX-7 등)FW Version (현재)Available VersionPSID3) 펌웨어 업데이트mlxfwmanager --update 또는mlxfwmanager -i --update3. 작업 흐름mst ..

mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리

처음에 mlxfwmanager --query로 NIC 확인했을 때 ConnectX-7이 여러 개 뜨는 걸 보고 구조를 조금 이해하게 됐다.출력 내용을 보면each up to 400Gb/s IB (default mode) or 400GbE → 8개400Gb/s IB and 200GbE; dual-port QSFP → 2개이걸 기반으로 보면 DGX 내부 네트워크는 두 가지로 나뉘는 걸 볼 수 있었다.1. OSFP 포트 (InfiniBand)장비 가운데에 있는 OSFP 포트는 InfiniBand 전용으로 사용하는 구간이다.물리적으로 4포트내부적으로는 8개의 포트처럼 동작속도는 400G 기준GPU 간 통신이나 노드 간 학습 데이터 교환은 이쪽으로 다 지나간다.2.QSFP 기반 ConnectX-7 (Etherne..

CPU Tray 교체 후 펌웨어 정렬 작업

CPU Tray 교체 이후에는 하드웨어만 맞춘 상태이며, 각 구성 요소의 펌웨어 버전을 맞추는 작업이 필요하다.1. 왜 펌웨어를 맞추는가Tray마다 펌웨어 버전이 다를 수 있음버전 mismatch 발생 시문제장치 인식 불가네트워크 불량GPU / NVLink 오류부팅 문제2. 확인 대상▪︎ 필수 확인 항목BMC firmwareBIOS (SBIOS)ConnectX-7 NIC firmwareOSFP InfiniBand firmware3. 작업 순서1) BMC 접속BMC Web 또는 SSH 접속현재 펌웨어 버전 확인 2) NIC 펌웨어 확인 (중요)mst startmlxfwmanager --query ConnectX-7 버전 확인3) IB 포트 확인ibstat Link 상태 확인4) 펌웨어 업그레이드▪︎ Me..

DGX 설치(물리+초기설정)

1. 마운트 및 케이블 연결▪︎ 랙마운트레일 설치 후 서버 장착무게가 크기 때문에 2인 이상 작업U 위치 및 공간 확보 확인▪︎ 전원 케이블 연결PSU 다중 구성 → PDU 분산 연결A/B 전원 이중화 고려▪︎ 네트워크 케이블 연결BMC 포트 (1G, RJ45커넥터)OS 관리 포트 (10G, RJ45 커넥터)※ 케이블 준비1G × 4 (BMC)10G × 4 (OS / Remote) - CAT7 네트워크 결선→ 기본 2개 + 장애 대비 여유2. 부팅 및 BIOS 진입▪︎ 진입 방법전원 ONDEL 키 입력BIOS Setup 진입3. BIOS → BMC 설정▪︎ 경로BIOS → BMC Configuration→ Network Configuration▪︎ 설정DHCP → DisableStatic IP 설정예시B..

DGX H100 / H200 User Guide 정리

사전체크(H100/H200 시스템에 대해서)▪︎ 기본 구성GPU : H200 × 8CPU : Intel Xeon × 2Memory : 2TBOS Disk : M.2 NVMe (RAID1)Data Disk : U.2 NVMe × 8 (RAID0)NetworkOSFP (InfiniBand / Cluster)Ethernet (Storage / Mgmt)BMC (RJ45)▪︎ 물리 정보8U 장비무게 약 130kg→ 혼자 작업 불가→ 레일 설치 필수▪︎ 전원PSU 6개 (4+2 redundancy)최소 3개 있어야 부팅 가능A/B 전원 분리 연결▪︎ 공기 흐름Front → Back (기본 구조)Cold aisle → Hot aisle 맞춰 설치→ 방향 틀리면 냉각 안됨▪︎ 전면 확인Power LED1Hz 깜빡임 ..

BMC Debug Data 추출 방법 (Redfish API)

DGX H100 / H200 서버에서 장애 분석 또는 벤더 기술 지원 요청 시 BMC Debug Data 수집이 필요한 경우가 있다.DGX 서버의 BMC는 Redfish API 기반이기 때문에 curl 명령어를 사용하여 CLI 환경에서 디버그 데이터를 수집할 수 있다.정리하면 전체 흐름은 다음과 같다.Diagnostic Data 생성 요청Task 진행 상태 확인Debug 파일 다운로드1. Diagnostic Data 생성 요청먼저 Redfish API를 이용해 BMC Diagnostic Data 수집 작업을 실행한다.curl -k -u : \--request POST \--location 'https:///redfish/v1/Managers/BMC/LogServices/DiagnosticLog/Actio..

DGX H100 / H200 펌웨어 업데이트 정리

참고: NVIDIA DGX H100 Firmware Update Guide 기준https://docs.nvidia.com/dgx/dgxh100-fw-update-guide/ DGX H100/H200 Firmware Update Guide — NVIDIA DGX H100/H200 Firmware Update Guide docs.nvidia.com 0. 사전 준비 BMC IP / 계정 확인대상 노드 workload 종료패키지 파일 준비nvfw_DGX_250629.1.0.fwpkgnvfw_DGX-HGX-H100-H200x8_0014_250724.1.0.fwpkg 1. 현재 버전 확인 (사전 비교)nvfwupd --target ip= user= password= \show_version -p nvfw_DGX_2..

반응형
LIST