반응형
SMALL

GPU 17

GPU 모듈 교체 후 펌웨어 업데이트

GPU 모듈 교체 후에는 GPU 모듈 간 펌웨어 버전이 동일한지 확인하고 맞춰줘야 함1. 펌웨어 버전 확인nvidia-smi -q확인 내용:VBIOS VersionGPU 간 펌웨어 버전 차이 여부교체된 GPU와 기존 GPU의 펌웨어가 다르면 동일한 버전으로 맞춰줘야 함2. GPU Tray 펌웨어 업데이트GPU 개별 업데이트가 아니라 GPU Tray 단위로 펌웨어 업데이트 진행참고:https://docs.nvidia.com/dgx/dgxh100-fw-update-guide/sequence.html Firmware Update Steps — NVIDIA DGX H100/H200 Firmware Update GuideUpdate the firmware on the network cards. Note Durin..

GPU 모듈 교체(H100 기준)

1. 전원 차단 및 GPU Tray 분리서버 전원을 완전히 종료전원 공급 장치(PSU) 모두 제거이후GPU Tray를 서버에서 분리Tray 상단 덮개를 제거→ 내부에 GPU 8개(SXM 모듈) 확인 가능2. 문제 GPU 모듈 위치 확인사전에 확인한 정보 기준으로:GPU 번호 (nvidia-smi)SXM 번호 (IPMI)Serial Number를 대조하여 → 교체할 GPU 모듈 정확히 특정3. GPU 모듈 분리해당 GPU 모듈의 플라스틱 덮개 제거이후드라이버를 이용해 고정 나사 풀기나사 위치총 4개히트싱크와 함께 고정되어 있음바깥쪽 위치에 나사 있음주의사항한 번에 한쪽만 풀지 않기대각선 방향으로 번갈아가며 풀기예:1 → 3 → 2 → 4 순서 반복 한 번에 다 풀지 말고→ 3번 정도 나눠서 조금씩 풀기4...

DGX H100 GPU 모듈 교체 전 확인 방법 (GPU ↔ SXM ↔ Serial 매핑)

1. nvidia-smi에서 문제 GPU 확인nvidia-smiGPU 온도 확인특정 GPU만 온도가 튀는지 확인GPU 온도 문제의 경우 혼자 온도가 튀는 GPU를 찾으면 됨2. GPU 번호 + Bus ID 확인nvidia-smi --query-gpu=index,pci.bus_id --format=csv문제 GPU의 Bus ID 확인3. Serial Number 확인nvidia-smi -q -i Bus ID 기준으로 해당 GPU 찾아서 Serial Number까지 확인교체 대상 식별용4. IPMI에서 SXM 확인ipmitool sel elist GPU 온도 문제의 경우Upper Critical going high 로 검색하면 어떤 SXM에서 문제 발생했는지 확인 가능5. dmidecode로 물리 위치 매핑..

명령어 옵션 상세 정리

2026.04.07 - [🔧 Engineering/📁 Study Notes] - 오늘 시험 문제 정리 — 명령어 핵심 정리각 명령어별 주요 옵션 의미 정리 오늘 시험 문제 정리 — 명령어 핵심 정리1. NVLink 확인# GPU 간 NVLink 연결 토폴로지 확인nvidia-smi topo -m# NVLink 상태 (링크별 활성 여부)nvidia-smi nvlink -s# NVLink 통계 (에러 카운트 등)nvidia-smi nvlink -eNV# : NVLink 연결 정상SYS : NVLink 끊김, PCIe+CPU 경mandoog.tistory.comnvidia-smi옵션의미예시(없음)GPU 전체 상태 요약 출력nvidia-smi-LGPU 목록 + UUID 출력nvidia-smi -L-i 특정 ..

DGX 서버 설치 중 계정/비밀번호를 잘못 설정했을 때 초기화하는 방법

외근을 나가서 DGX 서버를 처음 설치하고 IP 설정까지 진행하는 과정에서, 실수로 계정 이름이나 비밀번호를 잘못 입력해서 로그인이 안 되는 경우를 만들었다.예를 들어 아이디를 nvidia1, 비밀번호를 nvidia1로 설정하려고 했는데 오타가 나거나 비밀번호 확인 단계에서 다르게 입력해버리면 첫 부팅 직후부터 로그인 자체가 불가능해진다.이 글에서는 이런 상황에서 계정을 초기화하고 다시 설정하는 방법을 정리했다.상황 정리DGX 서버(B200, H100, H200 등)는 첫 부팅 시 First Boot Wizard를 통해 아래 항목을 설정한다.언어, 로케일, 타임존관리자 계정(username + password)BMC 관리자 비밀번호GRUB 부트로더 비밀번호기본 네트워크 인터페이스이 과정에서 계정 정보를 ..

CPU Tray 교체 후 펌웨어 정렬 작업

CPU Tray 교체 이후에는 하드웨어만 맞춘 상태이며, 각 구성 요소의 펌웨어 버전을 맞추는 작업이 필요하다.1. 왜 펌웨어를 맞추는가Tray마다 펌웨어 버전이 다를 수 있음버전 mismatch 발생 시문제장치 인식 불가네트워크 불량GPU / NVLink 오류부팅 문제2. 확인 대상▪︎ 필수 확인 항목BMC firmwareBIOS (SBIOS)ConnectX-7 NIC firmwareOSFP InfiniBand firmware3. 작업 순서1) BMC 접속BMC Web 또는 SSH 접속현재 펌웨어 버전 확인 2) NIC 펌웨어 확인 (중요)mst startmlxfwmanager --query ConnectX-7 버전 확인3) IB 포트 확인ibstat Link 상태 확인4) 펌웨어 업그레이드▪︎ Me..

클러스터 / 노드 / Pod 개념 정리

클러스터 (Cluster)여러 대의 서버(노드)를 하나로 묶어 하나의 시스템처럼 동작하도록 만든 환경이다.사용자는 개별 서버가 아니라 클러스터 단위로 자원을 사용하며, 워크로드는 클러스터 전체에 분산되어 실행된다.일반적으로 클러스터는Control Plane (관리 영역)Worker Node (실행 영역)로 구성된다.노드 (Node)클러스터를 구성하는 개별 서버이다.물리 서버 또는 가상 머신으로 구성되며, 실제 애플리케이션이 실행되는 공간이다.노드 내부에는 다음과 같은 구성 요소가 포함된다.컨테이너 런타임 (containerd 등)kubelet (Pod 관리)kube-proxy (네트워크 처리)하나의 노드는 자원(CPU, Memory, GPU 등)을 기반으로 여러 Pod를 동시에 실행할 수 있다.Pod쿠버..

DGX H100 / H200 User Guide 정리

사전체크(H100/H200 시스템에 대해서)▪︎ 기본 구성GPU : H200 × 8CPU : Intel Xeon × 2Memory : 2TBOS Disk : M.2 NVMe (RAID1)Data Disk : U.2 NVMe × 8 (RAID0)NetworkOSFP (InfiniBand / Cluster)Ethernet (Storage / Mgmt)BMC (RJ45)▪︎ 물리 정보8U 장비무게 약 130kg→ 혼자 작업 불가→ 레일 설치 필수▪︎ 전원PSU 6개 (4+2 redundancy)최소 3개 있어야 부팅 가능A/B 전원 분리 연결▪︎ 공기 흐름Front → Back (기본 구조)Cold aisle → Hot aisle 맞춰 설치→ 방향 틀리면 냉각 안됨▪︎ 전면 확인Power LED1Hz 깜빡임 ..

NVIDIA MIG 정리

1. MIG(Multi-Instance GPU)란?MIG는 하나의 물리적 GPU를 최대 7개의 독립적인 GPU 인스턴스로 분할하는 기술입니다. 각 인스턴스는 전용 고대역폭 메모리(HBM), 캐시, 연산 코어를 할당받아 마치 개별적인 작은 GPU처럼 작동합니다.2. MIG의 핵심 특징: "완벽한 격리(Isolation)"기존의 소프트웨어 기반 시분할(Time-slicing) 방식과 MIG의 가장 큰 차이점은 하드웨어 수준의 격리입니다.장애 격리: 특정 인스턴스에서 프로세스가 충돌하거나 에러가 발생해도, 다른 인스턴스에서 실행 중인 작업에는 전혀 영향을 주지 않습니다.성능 보장(QoS): 각 인스턴스가 독립적인 메모리와 대역폭을 점유하므로, 옆 칸에서 무거운 작업을 돌려도 내 작업의 속도가 느려지지 않습니다..

NVIDIA UFM(Unified Fabric Manager)

NVIDIA UFM(Unified Fabric Manager) 총정리: AI 클러스터의 신경망 관리자DGX H100과 같은 고성능 GPU 서버들이 수십, 수백 대 연결된 AI 클러스터에서 가장 중요한 것은 무엇일까요? 바로 서버 간의 데이터 통로인 인피니밴드(InfiniBand) 네트워크입니다. 오늘은 이 거대한 네트워크 패브릭을 지능적으로 관리하는 NVIDIA UFM에 대해 알아보겠습니다.1. NVIDIA UFM이란?UFM(Unified Fabric Manager)은 인피니밴드 가속 컴퓨팅 환경을 위한 네트워크 관리 플랫폼입니다. 단순한 모니터링 툴을 넘어, 네트워크의 구성, 최적화, 모니터링 및 장애 조치를 하나의 인터페이스에서 수행하는 '네트워크의 두뇌' 역할을 합니다.2. 왜 UFM이 필요한가? ..

반응형
LIST