반응형
SMALL

infiniband 8

UPMF 정리 (mlxfwmanager 보다가 알게 된 개념)

mlxfwmanager 문서 보다가 UPMF라는 개념이 따로 있어서 정리해봤다.2026.03.26 - [🔧 Engineering/📁 GPU & Hardware] - mlxfwmanager 정리 mlxfwmanager 정리mlxfwmanager는 Mellanox(NVIDIA) NIC의 펌웨어를 조회하고 업데이트할 때 사용하는 CLI 도구이다.1. 역할NIC 펌웨어 버전 확인현재 버전 vs 사용 가능 버전 확인펌웨어 업데이트 수행2. 기본 사용1) 디바이스mandoog.tistory.com2026.03.26 - [🔧 Engineering/📁 GPU & Hardware] - mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리 mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리처음에..

mlxfwmanager 정리

mlxfwmanager는 Mellanox(NVIDIA) NIC의 펌웨어를 조회하고 업데이트할 때 사용하는 CLI 도구이다.1. 역할NIC 펌웨어 버전 확인현재 버전 vs 사용 가능 버전 확인펌웨어 업데이트 수행2. 기본 사용1) 디바이스 활성화mst startmst status→ /dev/mst/... 디바이스 확인2) 펌웨어 조회특정 장치를 조회mlxfwmanager -d --query 컴퓨터에 있는 모든 장치를 조회mlxfwmanager --query→ 확인 내용Device Type (ConnectX-7 등)FW Version (현재)Available VersionPSID3) 펌웨어 업데이트mlxfwmanager --update 또는mlxfwmanager -i --update3. 작업 흐름mst ..

mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리

처음에 mlxfwmanager --query로 NIC 확인했을 때 ConnectX-7이 여러 개 뜨는 걸 보고 구조를 조금 이해하게 됐다.출력 내용을 보면each up to 400Gb/s IB (default mode) or 400GbE → 8개400Gb/s IB and 200GbE; dual-port QSFP → 2개이걸 기반으로 보면 DGX 내부 네트워크는 두 가지로 나뉘는 걸 볼 수 있었다.1. OSFP 포트 (InfiniBand)장비 가운데에 있는 OSFP 포트는 InfiniBand 전용으로 사용하는 구간이다.물리적으로 4포트내부적으로는 8개의 포트처럼 동작속도는 400G 기준GPU 간 통신이나 노드 간 학습 데이터 교환은 이쪽으로 다 지나간다.2.QSFP 기반 ConnectX-7 (Etherne..

DGX H100 / H200 User Guide 정리

사전체크(H100/H200 시스템에 대해서)▪︎ 기본 구성GPU : H200 × 8CPU : Intel Xeon × 2Memory : 2TBOS Disk : M.2 NVMe (RAID1)Data Disk : U.2 NVMe × 8 (RAID0)NetworkOSFP (InfiniBand / Cluster)Ethernet (Storage / Mgmt)BMC (RJ45)▪︎ 물리 정보8U 장비무게 약 130kg→ 혼자 작업 불가→ 레일 설치 필수▪︎ 전원PSU 6개 (4+2 redundancy)최소 3개 있어야 부팅 가능A/B 전원 분리 연결▪︎ 공기 흐름Front → Back (기본 구조)Cold aisle → Hot aisle 맞춰 설치→ 방향 틀리면 냉각 안됨▪︎ 전면 확인Power LED1Hz 깜빡임 ..

UFM Warning Event 발생 시 물리 점검 (Link Down)

이벤트 내용Event Name : Link is DownSeverity : WarningCategory : Fabric TopologySourceComputer : sp-h-050Switch : c-lf-12:19물리 위치 확인UFM에서 표시되는 Logical 정보 기준으로 실제 물리 위치를 확인해야 한다.Switch : c-lf-12Port : 10번 포트즉, Compute Leaf 12번 스위치의 10번 포트이다.점검 순서점검은 항상 아래 순서대로 진행한다.MPO 클리닝케이블 교체트랜시버 Reseat (재장착)트랜시버 교체점검 기준MPO 오염이 가장 빈번한 원인이다.케이블은 꺾임이나 내부 손상 가능성이 있다.트랜시버는 접촉 불량 또는 불량일 수 있다.불필요한 작업을 줄이기 위해 반드시 위 순서를 따른..

RDMA 테스트 방법 정리 (InfiniBand / perftest)

GPU 서버나 HPC 환경에서는 RDMA(Remote Direct Memory Access)를 통해 노드 간 고속 통신을 수행한다.RDMA 환경이 정상적으로 동작하는지 확인하기 위해 RDMA 테스트를 진행할 수 있다.이전 글에서는 RDMA에 대하여 정리했으며, 이번 글에서는 RDMA 환경에서 기본적으로 사용하는 테스트 방법(perftest)을 정리해보려고 한다.2026.03.12 - [🔧 Engineering/📁 GPU & Hardware] - RDMA(Remote Direct Memory Access) RDMA(Remote Direct Memory Access)GPU 서버를 공부하다 보면 RDMA 라는 용어를 자주 보게 된다.RDMA 가 무엇인지 공부하기위해 정리를 해보겠다. RDMA란 무엇인가RD..

RDMA(Remote Direct Memory Access)

GPU 서버를 공부하다 보면 RDMA 라는 용어를 자주 보게 된다.RDMA 가 무엇인지 공부하기위해 정리를 해보겠다. RDMA란 무엇인가RDMA는 이름 그대로 원격 시스템의 메모리에 직접 접근할 수 있는 기술즉 네트워크를 통해 데이터를 전송할 때 CPU를 거치지 않고 메모리 간 직접 데이터 전송이 가능하다.일반적인 네트워크 통신 방식일반적인 네트워크 통신에서는 다음과 같은 과정이 발생한다.Application │CPU │Kernel Network Stack │NIC │Network │NIC │CPU │Application 이 구조에서는 다음과 같은 문제가 있다.CPU 사용량 증가Kernel 처리 오버헤드높은 latency즉 네트워크 통신을 할 때 CPU와 OS 네트워크 스택을 반드시 거쳐야 한다.RDMA..

트랜시버

1. 트랜시버란트랜시버(Transceiver)는 네트워크 장비에서 전기 신호 ↔ 광 신호 변환을 담당하는 모듈이다.스위치, 서버 NIC, InfiniBand 카드 등에 삽입된다.2. 폼팩터(Form Factor) 기준 종류■ SFP (Small Form-factor Pluggable)1Gbps구형 환경에서 사용■ SFP+10Gbps데이터센터 기본 단위■ QSFP+40Gbps4채널 구조■ QSFP28100Gbps현재 데이터센터 표준 중 하나■ QSFP56200GbpsHDR InfiniBand 환경■ QSFP112400Gbps최신 GPU 클러스터 환경 폼펙터의 이름=물리규격 / 숫자=속도SFP 앞에 붙는 이름따라 속도가 달라짐Q = x4O = x8-- 이렇게 생각하는 편이 더 편하다.3. 케이블 유형 기준■..

반응형
LIST