🔧 Engineering/📁 GPU & Hardware

mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리

만두개 2026. 3. 26. 10:59
반응형
SMALL

처음에 mlxfwmanager --query로 NIC 확인했을 때 ConnectX-7이 여러 개 뜨는 걸 보고 구조를 조금 이해하게 됐다.

출력 내용을 보면

  • each up to 400Gb/s IB (default mode) or 400GbE → 8개
  • 400Gb/s IB and 200GbE; dual-port QSFP → 2개

이걸 기반으로 보면 DGX 내부 네트워크는 두 가지로 나뉘는 걸 볼 수 있었다.


1. OSFP 포트 (InfiniBand)

장비 가운데에 있는 OSFP 포트는 InfiniBand 전용으로 사용하는 구간이다.

  • 물리적으로 4포트
  • 내부적으로는 8개의 포트처럼 동작
  • 속도는 400G 기준

GPU 간 통신이나 노드 간 학습 데이터 교환은 이쪽으로 다 지나간다.


2.QSFP 기반 ConnectX-7 (Ethernet)

양쪽에 있는 ConnectX-7 카드도 같은 칩인데 여기는 주로 Ethernet으로 사용하는 구조다.

처음에 헷갈렸던 부분이 400G라고 적혀 있는데 실제로는 200G로 동작하는 경우가 있다는 점이었다.

정리하면

  • 같은 ConnectX-7 카드
  • IB 모드 → 400G
  • Ethernet 모드 → 보통 200G

이건 포트 구조나 lane 구성 차이 때문에 그렇게 동작한다.


3. BMC (관리 포트)

아래쪽 RJ45 포트는 따로 있음

  • 1G
  • 서버 관리용
  • BIOS / KVM / 원격 접속

이건 OS 네트워크랑 아예 다른 네트워크라고 보면 된다.


4. 왜 이렇게 나뉘는지

처음에는 왜 IB랑 Ethernet을 같이 쓰는지 헷갈렸는데 실제로 구조를 보고 추론해보니 조금 알 것 같아서 정리한다.

  • IB → GPU끼리 데이터 주고받는 용도
  • Ethernet → 사람이 접속하고 운영하는 용도

둘을 섞어 쓰면 병목 생기니까 애초에 역할을 나눠놓은 구조였다.


5. 전체 흐름

정리하면 이렇게 보면 된다

  • OSFP → InfiniBand (400G, GPU 통신)
  • QSFP / NIC → Ethernet (200G, OS/서비스)
  • RJ45 → BMC (1G, 관리)

한 줄로 정리하면

DGX는 GPU 통신은 IB로, 운영과 접속은 Ethernet으로 분리해서 쓰는 구조다.

반응형
LIST