🔧 Engineering/📁 GPU & Hardware

NVIDIA UFM(Unified Fabric Manager)

만두개 2026. 3. 23. 09:53
반응형
SMALL

NVIDIA UFM(Unified Fabric Manager) 총정리: AI 클러스터의 신경망 관리자

DGX H100과 같은 고성능 GPU 서버들이 수십, 수백 대 연결된 AI 클러스터에서 가장 중요한 것은 무엇일까요? 바로 서버 간의 데이터 통로인 인피니밴드(InfiniBand) 네트워크입니다. 오늘은 이 거대한 네트워크 패브릭을 지능적으로 관리하는 NVIDIA UFM에 대해 알아보겠습니다.


1. NVIDIA UFM이란?

UFM(Unified Fabric Manager)은 인피니밴드 가속 컴퓨팅 환경을 위한 네트워크 관리 플랫폼입니다. 단순한 모니터링 툴을 넘어, 네트워크의 구성, 최적화, 모니터링 및 장애 조치를 하나의 인터페이스에서 수행하는 '네트워크의 두뇌' 역할을 합니다.


2. 왜 UFM이 필요한가? (주요 기능)

대규모 GPU 연산(HPC, AI 학습) 시 네트워크 병목은 곧 성능 저하로 이어집니다. UFM은 이를 방지하기 위해 다음 4가지 핵심 기능을 제공합니다.

  • 자동화된 패브릭 구성 (Fabric Deployment): 새로운 스위치나 노드가 추가될 때 자동으로 인식하고 최적의 경로(Routing)를 설정합니다.
  • 실시간 모니터링 (Visibility): 서버 간 대역폭(Bandwidth), 지연 시간(Latency), 패킷 드롭(Packet Drop) 등을 대시보드에서 실시간으로 확인합니다.
  • 성능 최적화 (Optimization): SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) 기술 등을 통해 네트워크 단에서 연산을 보조하여 데이터 전송 효율을 극대화합니다.
  • 장애 격리 (Isolation): 특정 케이블이나 포트에 에러가 발생하면, 해당 경로를 즉시 격리하고 우회 경로를 설정하여 전체 클러스터의 가용성을 유지합니다.

3. UFM 제품 라인업 (Telemetry / Enterprise / Cyber-AI)

운영 목적에 따라 세 가지 에디션으로 구분됩니다.

  1. UFM Telemetry: 데이터 수집 전용. 실시간 통계 데이터를 외부 모니터링 도구(Grafana, Prometheus 등)로 스트리밍할 때 사용합니다.
  2. UFM Enterprise: 관리 및 최적화 엔진이 포함된 표준 버전입니다. 서브넷 매니저(SM) 제어 및 네트워크 자동화 기능을 제공합니다.
  3. UFM Cyber-AI: AI 기반 분석 엔진입니다. 네트워크의 미세한 이상 징후를 학습하여 하드웨어 고장이나 보안 위협을 사전에 예측합니다.

4. 실무자 가이드: NVSM vs UFM

DGX H100 인프라 엔지니어라면 이 세 가지 도구의 역할 분담을 명확히 이해해야 합니다.

구분 NVIDIA NVSM NVIDIA UFM
관리 영역 서버 내부 (In-band) 네트워크 패브릭 (Fabric)
주요 대상 CPU, GPU, 메모리, 써멀 스위치, 케이블, 통신 경로
상태 확인 OS 부팅 및 드라이버 설치 후 클러스터 네트워크 연결 시

5. UFM 주요 명령어 및 CLI 활용 (Cheat Sheet)

실제 서버 OS나 UFM 어플라이언스에서 자주 사용하는 확인 사항입니다.

  • Fabric Health Check: 전체 패브릭에 에러가 있는지 요약 정보를 확인합니다.
  • Top Talkers 확인: 어떤 노드가 네트워크 대역폭을 가장 많이 점유하고 있는지 실시간으로 파악하여 병목 지점을 찾습니다.
  • Subnet Manager(SM) 상태: 인피니밴드의 경로 설정 주체인 SM이 Master/Standby로 잘 작동하는지 모니터링합니다.

정리

DGX H100 한 대의 성능을 뽑아내는 것이 NVSM의 역할이라면, 수십 대의 DGX를 하나의 슈퍼컴퓨터처럼 움직이게 만드는 것은 UFM의 몫입니다. 대규모 GPU 클러스터를 운영할 계획이라면 UFM을 통한 네트워크 가시성 확보는 선택이 아닌 필수입니다.

반응형
LIST