반응형
SMALL
처음에 mlxfwmanager --query로 NIC 확인했을 때 ConnectX-7이 여러 개 뜨는 걸 보고 구조를 조금 이해하게 됐다.
출력 내용을 보면
- each up to 400Gb/s IB (default mode) or 400GbE → 8개
- 400Gb/s IB and 200GbE; dual-port QSFP → 2개
이걸 기반으로 보면 DGX 내부 네트워크는 두 가지로 나뉘는 걸 볼 수 있었다.

1. OSFP 포트 (InfiniBand)
장비 가운데에 있는 OSFP 포트는 InfiniBand 전용으로 사용하는 구간이다.
- 물리적으로 4포트
- 내부적으로는 8개의 포트처럼 동작
- 속도는 400G 기준
GPU 간 통신이나 노드 간 학습 데이터 교환은 이쪽으로 다 지나간다.
2.QSFP 기반 ConnectX-7 (Ethernet)
양쪽에 있는 ConnectX-7 카드도 같은 칩인데 여기는 주로 Ethernet으로 사용하는 구조다.
처음에 헷갈렸던 부분이 400G라고 적혀 있는데 실제로는 200G로 동작하는 경우가 있다는 점이었다.
정리하면
- 같은 ConnectX-7 카드
- IB 모드 → 400G
- Ethernet 모드 → 보통 200G
이건 포트 구조나 lane 구성 차이 때문에 그렇게 동작한다.
3. BMC (관리 포트)
아래쪽 RJ45 포트는 따로 있음
- 1G
- 서버 관리용
- BIOS / KVM / 원격 접속
이건 OS 네트워크랑 아예 다른 네트워크라고 보면 된다.
4. 왜 이렇게 나뉘는지
처음에는 왜 IB랑 Ethernet을 같이 쓰는지 헷갈렸는데 실제로 구조를 보고 추론해보니 조금 알 것 같아서 정리한다.
- IB → GPU끼리 데이터 주고받는 용도
- Ethernet → 사람이 접속하고 운영하는 용도
둘을 섞어 쓰면 병목 생기니까 애초에 역할을 나눠놓은 구조였다.
5. 전체 흐름
정리하면 이렇게 보면 된다
- OSFP → InfiniBand (400G, GPU 통신)
- QSFP / NIC → Ethernet (200G, OS/서비스)
- RJ45 → BMC (1G, 관리)
한 줄로 정리하면
DGX는 GPU 통신은 IB로, 운영과 접속은 Ethernet으로 분리해서 쓰는 구조다.
반응형
LIST
'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글
| UPMF 정리 (mlxfwmanager 보다가 알게 된 개념) (0) | 2026.03.26 |
|---|---|
| mlxfwmanager 정리 (0) | 2026.03.26 |
| CPU Tray 교체 후 펌웨어 정렬 작업 (0) | 2026.03.25 |
| DGX 설치(물리+초기설정) (0) | 2026.03.25 |
| 클러스터 / 노드 / Pod 개념 정리 (0) | 2026.03.25 |