반응형
SMALL
사전체크(H100/H200 시스템에 대해서)


▪︎ 기본 구성
- GPU : H200 × 8
- CPU : Intel Xeon × 2
- Memory : 2TB
- OS Disk : M.2 NVMe (RAID1)
- Data Disk : U.2 NVMe × 8 (RAID0)
- Network
- OSFP (InfiniBand / Cluster)
- Ethernet (Storage / Mgmt)
- BMC (RJ45)
▪︎ 물리 정보
- 8U 장비
- 무게 약 130kg
→ 혼자 작업 불가
→ 레일 설치 필수
▪︎ 전원
- PSU 6개 (4+2 redundancy)
- 최소 3개 있어야 부팅 가능
- A/B 전원 분리 연결
▪︎ 공기 흐름
- Front → Back (기본 구조)
- Cold aisle → Hot aisle 맞춰 설치
→ 방향 틀리면 냉각 안됨
▪︎ 전면 확인
- Power LED
- 1Hz 깜빡임 → standby
- 4Hz 깜빡임 → POST
- 고정 → 정상
- Fault LED (amber)
→ 장애 상태


▪︎ 후면 확인
- PSU 위치
- 네트워크 포트 (OSFP / Ethernet)
- BMC 포트
- BMC Reset 버튼
▪︎ 네트워크 포설 전 핵심
- OSFP 포트 = 클러스터용
- Ethernet = 관리/스토리지용
→ 혼동 금지
▪︎ 포트 매핑 (핵심만)
- OSFP ↔ OS 인터페이스 매칭됨
- ibXXX
- enpXXX
- mlx5_X
→ 나중에 OS에서 확인할 때 필요
▪︎ 작업 전에 머리에 넣을 것
- 무거움 → 레일 먼저
- 전원 → A/B 분리
- airflow → 방향 맞추기
- 포트 → 역할 구분
- 네트워크 → OS 이름까지 연결해서 생각
DGX H100 / H200 설치 이후 단계 정리
1. First Boot (최초 부팅)
▪︎ 확인
- 전원 정상 인가
- POST 진행 여부 (LED 확인)
- 모니터 / 콘솔 접근 가능 여부
▪︎ 기본 작업
- BMC 접속 (IP 확인)
- 사용자 이름: <관리자 사용자 이름>
- 비밀번호: <bmc-password>
- KVM 접속 확인
- 시스템 상태 확인
▪︎ 포인트
- 전원 들어온다고 정상 아님
- POST → OS 순서 확인
2. BIOS (SBIOS) 설정
▪︎ 기본 설정
- Boot Mode : UEFI
- Power Mode : Performance
- CPU 설정 : Enable
- Hyper-Threading : Enable
▪︎ GPU / PCIe
- PCIe Gen 설정 확인
- GPU 인식 여부 확인
▪︎ NUMA
- NUMA Enable
→ GPU/CPU 성능 영향 있음
▪︎ 포인트
- 기본값 그대로 쓰는 경우 많지만
→ GPU 서버는 성능 설정 중요 - 시스템 BIOS를 사용하여 BMC 고정 IP 주소 구성하기
3. OS 기본 세팅
▪︎ 확인
- OS 정상 부팅
- SSH 접속 가능
▪︎ 커널 고정 (중요)
apt-mark hold linux-image-generic linux-headers-genericnvidia-smi
▪︎ 기본 패키지 설치
apt install gcc ssh net-tools make nvme-cli ipmitool
→ 최소 필수
4.GRUB 설정 (중요)
▪︎ 설정
intel_iommu=on iommu=pt
또는
amd_iommu=on iommu=pt
- GPU / RDMA 성능 최적화
- DMA 성능 개선
5.Nouveau 제거
▪︎ 설정
blacklist nouveau
- NVIDIA 드라이버 충돌 방지
6. CLI 모드 전환
systemctl set-default multi-user.target
→ GUI 제거
NIC 드라이버
▪︎ 확인
ethtool -i <interface>
필요 시 드라이버 업데이트
H200에서는
→ 대부분 Mellanox (mlx5) 사용
→ Intel NIC는 관리용
8. MLNX_OFED 설치 (핵심)
▪︎ 설치
./mlnxofedinstall
▪︎ 확인
mst start
mlxfwmanager
9. CUDA + Driver
▪︎ 설치
apt install cuda
▪︎ 확인
nvcc -V
nvidia-smi
Driver + CUDA 버전 맞춰야 함
10. Fabric Manager (H100/H200 핵심)
▪︎ 설치
apt install nvidia-fabricmanager
▪︎ 확인
nvidia-smi topo -m
▪︎ 의미
NVLink / NVSwitch 활성화
→ 안 하면 GPU 간 연결 안됨
11. DCGM (옵션)
▪︎ 역할
- GPU 모니터링
▪︎ 확인
dcgmi discovery -l
12. Docker / NVIDIA Container
▪︎ 설치
- docker
- nvidia-container-toolkit
▪︎ 테스트
docker run --gpus all ubuntu nvidia-smi
13. PyTorch (옵션)
▪︎ 설치
conda install pytorch
▪︎ 확인
torch.cuda.is_available()
반응형
LIST
'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글
| 클러스터 / 노드 / Pod 개념 정리 (0) | 2026.03.25 |
|---|---|
| RJ45와 GG45차이, 랜 케이블 규격 정리 (CAT5e ~ CAT7) (0) | 2026.03.25 |
| P2C / C2P 방향 (공기 흐름 기준) (0) | 2026.03.24 |
| UFM Warning Event 발생 시 물리 점검 (Link Down) (0) | 2026.03.24 |
| NVIDIA MIG 정리 (0) | 2026.03.23 |