🔧 Engineering/📁 GPU & Hardware

DGX H100 / H200 User Guide 정리

만두개 2026. 3. 25. 11:26
반응형
SMALL

사전체크(H100/H200 시스템에 대해서)

전면

▪︎ 기본 구성

  • GPU : H200 × 8
  • CPU : Intel Xeon × 2
  • Memory : 2TB
  • OS Disk : M.2 NVMe (RAID1)
  • Data Disk : U.2 NVMe × 8 (RAID0)
  • Network
    • OSFP (InfiniBand / Cluster)
    • Ethernet (Storage / Mgmt)
    • BMC (RJ45)

▪︎ 물리 정보

  • 8U 장비
  • 무게 약 130kg

→ 혼자 작업 불가
→ 레일 설치 필수

▪︎ 전원

  • PSU 6개 (4+2 redundancy)
  • 최소 3개 있어야 부팅 가능
  • A/B 전원 분리 연결

▪︎ 공기 흐름

  • Front → Back (기본 구조)
  • Cold aisle → Hot aisle 맞춰 설치

→ 방향 틀리면 냉각 안됨

▪︎ 전면 확인

  • Power LED
    • 1Hz 깜빡임 → standby
    • 4Hz 깜빡임 → POST
    • 고정 → 정상
  • Fault LED (amber)
    → 장애 상태

후면

▪︎ 후면 확인

  • PSU 위치
  • 네트워크 포트 (OSFP / Ethernet)
  • BMC 포트
  • BMC Reset 버튼

▪︎ 네트워크 포설 전 핵심

  • OSFP 포트 = 클러스터용
  • Ethernet = 관리/스토리지용

→ 혼동 금지

▪︎ 포트 매핑 (핵심만)

  • OSFP ↔ OS 인터페이스 매칭됨
    • ibXXX
    • enpXXX
    • mlx5_X

→ 나중에 OS에서 확인할 때 필요

▪︎ 작업 전에 머리에 넣을 것

  • 무거움 → 레일 먼저
  • 전원 → A/B 분리
  • airflow → 방향 맞추기
  • 포트 → 역할 구분
  • 네트워크 → OS 이름까지 연결해서 생각

DGX H100 / H200 설치 이후 단계 정리

1. First Boot (최초 부팅)

▪︎ 확인

  • 전원 정상 인가
  • POST 진행 여부 (LED 확인)
  • 모니터 / 콘솔 접근 가능 여부

▪︎ 기본 작업

  • BMC 접속 (IP 확인)
    • 사용자 이름: <관리자 사용자 이름>
    • 비밀번호: <bmc-password>
  • KVM 접속 확인
  • 시스템 상태 확인

▪︎ 포인트

  • 전원 들어온다고 정상 아님
  • POST → OS 순서 확인

2. BIOS (SBIOS) 설정

▪︎ 기본 설정

  • Boot Mode : UEFI
  • Power Mode : Performance
  • CPU 설정 : Enable
  • Hyper-Threading : Enable

▪︎ GPU / PCIe

  • PCIe Gen 설정 확인
  • GPU 인식 여부 확인

▪︎ NUMA

  • NUMA Enable
    → GPU/CPU 성능 영향 있음

▪︎ 포인트

  • 기본값 그대로 쓰는 경우 많지만
    → GPU 서버는 성능 설정 중요
  • 시스템 BIOS를 사용하여 BMC 고정 IP 주소 구성하기

3. OS 기본 세팅

▪︎ 확인

  • OS 정상 부팅
  • SSH 접속 가능

▪︎ 커널 고정 (중요)

apt-mark hold linux-image-generic linux-headers-genericnvidia-smi

▪︎ 기본 패키지 설치

apt install gcc ssh net-tools make nvme-cli ipmitool

→ 최소 필수

 


4.GRUB 설정 (중요)

▪︎ 설정

intel_iommu=on iommu=pt
 

또는

amd_iommu=on iommu=pt

 

  • GPU / RDMA 성능 최적화
  • DMA 성능 개선

 


5.Nouveau 제거

▪︎ 설정

blacklist nouveau
 
  • NVIDIA 드라이버 충돌 방지

6. CLI 모드 전환

systemctl set-default multi-user.target

→ GUI 제거


NIC 드라이버

▪︎ 확인

ethtool -i <interface>

필요 시 드라이버 업데이트

H200에서는
→ 대부분 Mellanox (mlx5) 사용
→ Intel NIC는 관리용


8. MLNX_OFED 설치 (핵심)

▪︎ 설치

./mlnxofedinstall

▪︎ 확인

mst start
mlxfwmanager

9. CUDA + Driver

▪︎ 설치

apt install cuda

▪︎ 확인

nvcc -V
nvidia-smi

Driver + CUDA 버전 맞춰야 함

 


10. Fabric Manager (H100/H200 핵심)

▪︎ 설치

apt install nvidia-fabricmanager

 

▪︎ 확인

nvidia-smi topo -m
 

▪︎ 의미

NVLink / NVSwitch 활성화

→ 안 하면 GPU 간 연결 안됨


11. DCGM (옵션)

▪︎ 역할

  • GPU 모니터링

▪︎ 확인

dcgmi discovery -l
 

12. Docker / NVIDIA Container

▪︎ 설치

  • docker
  • nvidia-container-toolkit

▪︎ 테스트

docker run --gpus all ubuntu nvidia-smi
 

13. PyTorch (옵션)

▪︎ 설치

conda install pytorch

▪︎ 확인

torch.cuda.is_available()

 

반응형
LIST