반응형
SMALL

H100 8

GPU 모듈 교체(H100 기준)

1. 전원 차단 및 GPU Tray 분리서버 전원을 완전히 종료전원 공급 장치(PSU) 모두 제거이후GPU Tray를 서버에서 분리Tray 상단 덮개를 제거→ 내부에 GPU 8개(SXM 모듈) 확인 가능2. 문제 GPU 모듈 위치 확인사전에 확인한 정보 기준으로:GPU 번호 (nvidia-smi)SXM 번호 (IPMI)Serial Number를 대조하여 → 교체할 GPU 모듈 정확히 특정3. GPU 모듈 분리해당 GPU 모듈의 플라스틱 덮개 제거이후드라이버를 이용해 고정 나사 풀기나사 위치총 4개히트싱크와 함께 고정되어 있음바깥쪽 위치에 나사 있음주의사항한 번에 한쪽만 풀지 않기대각선 방향으로 번갈아가며 풀기예:1 → 3 → 2 → 4 순서 반복 한 번에 다 풀지 말고→ 3번 정도 나눠서 조금씩 풀기4...

DGX H100 GPU 모듈 교체 전 확인 방법 (GPU ↔ SXM ↔ Serial 매핑)

1. nvidia-smi에서 문제 GPU 확인nvidia-smiGPU 온도 확인특정 GPU만 온도가 튀는지 확인GPU 온도 문제의 경우 혼자 온도가 튀는 GPU를 찾으면 됨2. GPU 번호 + Bus ID 확인nvidia-smi --query-gpu=index,pci.bus_id --format=csv문제 GPU의 Bus ID 확인3. Serial Number 확인nvidia-smi -q -i Bus ID 기준으로 해당 GPU 찾아서 Serial Number까지 확인교체 대상 식별용4. IPMI에서 SXM 확인ipmitool sel elist GPU 온도 문제의 경우Upper Critical going high 로 검색하면 어떤 SXM에서 문제 발생했는지 확인 가능5. dmidecode로 물리 위치 매핑..

mlxfwmanager 정리

mlxfwmanager는 Mellanox(NVIDIA) NIC의 펌웨어를 조회하고 업데이트할 때 사용하는 CLI 도구이다.1. 역할NIC 펌웨어 버전 확인현재 버전 vs 사용 가능 버전 확인펌웨어 업데이트 수행2. 기본 사용1) 디바이스 활성화mst startmst status→ /dev/mst/... 디바이스 확인2) 펌웨어 조회특정 장치를 조회mlxfwmanager -d --query 컴퓨터에 있는 모든 장치를 조회mlxfwmanager --query→ 확인 내용Device Type (ConnectX-7 등)FW Version (현재)Available VersionPSID3) 펌웨어 업데이트mlxfwmanager --update 또는mlxfwmanager -i --update3. 작업 흐름mst ..

mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리

처음에 mlxfwmanager --query로 NIC 확인했을 때 ConnectX-7이 여러 개 뜨는 걸 보고 구조를 조금 이해하게 됐다.출력 내용을 보면each up to 400Gb/s IB (default mode) or 400GbE → 8개400Gb/s IB and 200GbE; dual-port QSFP → 2개이걸 기반으로 보면 DGX 내부 네트워크는 두 가지로 나뉘는 걸 볼 수 있었다.1. OSFP 포트 (InfiniBand)장비 가운데에 있는 OSFP 포트는 InfiniBand 전용으로 사용하는 구간이다.물리적으로 4포트내부적으로는 8개의 포트처럼 동작속도는 400G 기준GPU 간 통신이나 노드 간 학습 데이터 교환은 이쪽으로 다 지나간다.2.QSFP 기반 ConnectX-7 (Etherne..

DGX H100 / H200 User Guide 정리

사전체크(H100/H200 시스템에 대해서)▪︎ 기본 구성GPU : H200 × 8CPU : Intel Xeon × 2Memory : 2TBOS Disk : M.2 NVMe (RAID1)Data Disk : U.2 NVMe × 8 (RAID0)NetworkOSFP (InfiniBand / Cluster)Ethernet (Storage / Mgmt)BMC (RJ45)▪︎ 물리 정보8U 장비무게 약 130kg→ 혼자 작업 불가→ 레일 설치 필수▪︎ 전원PSU 6개 (4+2 redundancy)최소 3개 있어야 부팅 가능A/B 전원 분리 연결▪︎ 공기 흐름Front → Back (기본 구조)Cold aisle → Hot aisle 맞춰 설치→ 방향 틀리면 냉각 안됨▪︎ 전면 확인Power LED1Hz 깜빡임 ..

NVIDIA MIG 정리

1. MIG(Multi-Instance GPU)란?MIG는 하나의 물리적 GPU를 최대 7개의 독립적인 GPU 인스턴스로 분할하는 기술입니다. 각 인스턴스는 전용 고대역폭 메모리(HBM), 캐시, 연산 코어를 할당받아 마치 개별적인 작은 GPU처럼 작동합니다.2. MIG의 핵심 특징: "완벽한 격리(Isolation)"기존의 소프트웨어 기반 시분할(Time-slicing) 방식과 MIG의 가장 큰 차이점은 하드웨어 수준의 격리입니다.장애 격리: 특정 인스턴스에서 프로세스가 충돌하거나 에러가 발생해도, 다른 인스턴스에서 실행 중인 작업에는 전혀 영향을 주지 않습니다.성능 보장(QoS): 각 인스턴스가 독립적인 메모리와 대역폭을 점유하므로, 옆 칸에서 무거운 작업을 돌려도 내 작업의 속도가 느려지지 않습니다..

Redfish API 정리

Redfish API란?Redfish는 서버, 스토리지, 네트워크 장비 등 하드웨어를 관리하기 위한 RESTful API 표준입니다. 과거에 사용하던 IPMI(Intelligent Platform Management Interface)의 한계를 극복하기 위해 만들어졌습니다.포맷: JSON (데이터 교환이 쉽고 가독성이 좋음)프로토콜: HTTPS (보안성이 높음)구조: RESTful (GET, POST, PATCH 등을 사용하여 웹 API처럼 다룸)왜 Redfish를 사용하는가? (IPMI와 비교)특징IPMI (과거 표준)Redfish (현재 표준)데이터 형식바이너리 (해석 어려움)JSON (사람이 읽기 쉬움)확장성제한적 (최신 하드웨어 대응 느림)매우 높음 (GPU, NVMe 등 최신 장비 대응)인터페이..

DGX H100 / H200 펌웨어 업데이트 정리

참고: NVIDIA DGX H100 Firmware Update Guide 기준https://docs.nvidia.com/dgx/dgxh100-fw-update-guide/ DGX H100/H200 Firmware Update Guide — NVIDIA DGX H100/H200 Firmware Update Guide docs.nvidia.com 0. 사전 준비 BMC IP / 계정 확인대상 노드 workload 종료패키지 파일 준비nvfw_DGX_250629.1.0.fwpkgnvfw_DGX-HGX-H100-H200x8_0014_250724.1.0.fwpkg 1. 현재 버전 확인 (사전 비교)nvfwupd --target ip= user= password= \show_version -p nvfw_DGX_2..

반응형
LIST