반응형
SMALL

Nvidia 16

GPU 모듈 교체 후 펌웨어 업데이트

GPU 모듈 교체 후에는 GPU 모듈 간 펌웨어 버전이 동일한지 확인하고 맞춰줘야 함1. 펌웨어 버전 확인nvidia-smi -q확인 내용:VBIOS VersionGPU 간 펌웨어 버전 차이 여부교체된 GPU와 기존 GPU의 펌웨어가 다르면 동일한 버전으로 맞춰줘야 함2. GPU Tray 펌웨어 업데이트GPU 개별 업데이트가 아니라 GPU Tray 단위로 펌웨어 업데이트 진행참고:https://docs.nvidia.com/dgx/dgxh100-fw-update-guide/sequence.html Firmware Update Steps — NVIDIA DGX H100/H200 Firmware Update GuideUpdate the firmware on the network cards. Note Durin..

GPU 모듈 교체(H100 기준)

1. 전원 차단 및 GPU Tray 분리서버 전원을 완전히 종료전원 공급 장치(PSU) 모두 제거이후GPU Tray를 서버에서 분리Tray 상단 덮개를 제거→ 내부에 GPU 8개(SXM 모듈) 확인 가능2. 문제 GPU 모듈 위치 확인사전에 확인한 정보 기준으로:GPU 번호 (nvidia-smi)SXM 번호 (IPMI)Serial Number를 대조하여 → 교체할 GPU 모듈 정확히 특정3. GPU 모듈 분리해당 GPU 모듈의 플라스틱 덮개 제거이후드라이버를 이용해 고정 나사 풀기나사 위치총 4개히트싱크와 함께 고정되어 있음바깥쪽 위치에 나사 있음주의사항한 번에 한쪽만 풀지 않기대각선 방향으로 번갈아가며 풀기예:1 → 3 → 2 → 4 순서 반복 한 번에 다 풀지 말고→ 3번 정도 나눠서 조금씩 풀기4...

NVIDIA 드라이버 로그 — NVRM XID 에러

NVIDIA 드라이버가 커널 로그(dmesg)에 기록하는 GPU 에러 코드 정리NVRM이란NVRM = NVIDIA Resource Manager= NVIDIA 드라이버의 커널 모듈= dmesg에 메시지 남길 때 prefix로 사용dmesg에서 NVRM: 으로 시작하는 줄 = NVIDIA 드라이버 커널 모듈이 남긴 메시지XID란XID = NVIDIA 드라이버가 GPU 에러 발생 시 커널 로그(dmesg)에 기록하는 에러 코드XID 확인 방법# dmesg에서 XID 확인dmesg | grep -i xid# 실시간 모니터링dmesg -w | grep -i xid# journalctl에서 확인journalctl -b | grep -i xid# 에러 레벨로 필터journalctl -b -p err | g..

NVSwitch 유무에 따른 NVIDIA 패키지 설치 가이드

한 줄 요약NVSwitch 없음 = 드라이버 NVSwitch 있음 = 드라이버 + fabricmanager + dcgm + nscq내 서버 NVSwitch 있는지 확인lspci | grep -i nvswitch# 또는nvidia-smi nvlink --statusNVSwitch 없는 서버 (A100 PCIe, RTX 등)sudo apt install \ nvidia-driver-565-server \ datacenter-gpu-manager \ -ysystemctl enable nvidia-dcgmsystemctl start nvidia-dcgmNVSwitch 있는 서버 (DGX H100, HGX H100 등)sudo apt install \ nvidia-driver-565-server \ nv..

UPMF 정리 (mlxfwmanager 보다가 알게 된 개념)

mlxfwmanager 문서 보다가 UPMF라는 개념이 따로 있어서 정리해봤다.2026.03.26 - [🔧 Engineering/📁 GPU & Hardware] - mlxfwmanager 정리 mlxfwmanager 정리mlxfwmanager는 Mellanox(NVIDIA) NIC의 펌웨어를 조회하고 업데이트할 때 사용하는 CLI 도구이다.1. 역할NIC 펌웨어 버전 확인현재 버전 vs 사용 가능 버전 확인펌웨어 업데이트 수행2. 기본 사용1) 디바이스mandoog.tistory.com2026.03.26 - [🔧 Engineering/📁 GPU & Hardware] - mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리 mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리처음에..

DGX H100 / H200 User Guide 정리

사전체크(H100/H200 시스템에 대해서)▪︎ 기본 구성GPU : H200 × 8CPU : Intel Xeon × 2Memory : 2TBOS Disk : M.2 NVMe (RAID1)Data Disk : U.2 NVMe × 8 (RAID0)NetworkOSFP (InfiniBand / Cluster)Ethernet (Storage / Mgmt)BMC (RJ45)▪︎ 물리 정보8U 장비무게 약 130kg→ 혼자 작업 불가→ 레일 설치 필수▪︎ 전원PSU 6개 (4+2 redundancy)최소 3개 있어야 부팅 가능A/B 전원 분리 연결▪︎ 공기 흐름Front → Back (기본 구조)Cold aisle → Hot aisle 맞춰 설치→ 방향 틀리면 냉각 안됨▪︎ 전면 확인Power LED1Hz 깜빡임 ..

NVIDIA AI 정리 (NeMo / Nemotron / NIM / Agentic AI / Token)

NeMoNVIDIA에서 제공하는 LLM 및 생성형 AI 개발을 위한 프레임워크이다.모델을 학습, 파인튜닝, 평가까지 할 수 있는 도구로, 개발자가 AI 모델을 직접 만들고 다룰 수 있는 기반 역할을 한다.LLM을 만들기 위한 개발 도구에 해당한다.NemotronNeMo를 기반으로 NVIDIA가 직접 만든 LLM 모델이다.이미 학습되어 있는 상태의 모델로, 바로 활용하거나 추가 파인튜닝이 가능하다.NeMo라는 도구로 만들어진 완성된 모델이다.NIM (NVIDIA Inference Microservices)NeMo 및 Nemotron 모델을 실제 서비스 환경에서 사용할 수 있도록 만든 배포 모듈이다.컨테이너 기반으로 제공되며 API 형태로 쉽게 호출할 수 있다.모델을 실제로 사용할 수 있게 만들어주는 배포 ..

NVIDIA MIG 정리

1. MIG(Multi-Instance GPU)란?MIG는 하나의 물리적 GPU를 최대 7개의 독립적인 GPU 인스턴스로 분할하는 기술입니다. 각 인스턴스는 전용 고대역폭 메모리(HBM), 캐시, 연산 코어를 할당받아 마치 개별적인 작은 GPU처럼 작동합니다.2. MIG의 핵심 특징: "완벽한 격리(Isolation)"기존의 소프트웨어 기반 시분할(Time-slicing) 방식과 MIG의 가장 큰 차이점은 하드웨어 수준의 격리입니다.장애 격리: 특정 인스턴스에서 프로세스가 충돌하거나 에러가 발생해도, 다른 인스턴스에서 실행 중인 작업에는 전혀 영향을 주지 않습니다.성능 보장(QoS): 각 인스턴스가 독립적인 메모리와 대역폭을 점유하므로, 옆 칸에서 무거운 작업을 돌려도 내 작업의 속도가 느려지지 않습니다..

NVIDIA UFM(Unified Fabric Manager)

NVIDIA UFM(Unified Fabric Manager) 총정리: AI 클러스터의 신경망 관리자DGX H100과 같은 고성능 GPU 서버들이 수십, 수백 대 연결된 AI 클러스터에서 가장 중요한 것은 무엇일까요? 바로 서버 간의 데이터 통로인 인피니밴드(InfiniBand) 네트워크입니다. 오늘은 이 거대한 네트워크 패브릭을 지능적으로 관리하는 NVIDIA UFM에 대해 알아보겠습니다.1. NVIDIA UFM이란?UFM(Unified Fabric Manager)은 인피니밴드 가속 컴퓨팅 환경을 위한 네트워크 관리 플랫폼입니다. 단순한 모니터링 툴을 넘어, 네트워크의 구성, 최적화, 모니터링 및 장애 조치를 하나의 인터페이스에서 수행하는 '네트워크의 두뇌' 역할을 합니다.2. 왜 UFM이 필요한가? ..

RDMA(Remote Direct Memory Access)

GPU 서버를 공부하다 보면 RDMA 라는 용어를 자주 보게 된다.RDMA 가 무엇인지 공부하기위해 정리를 해보겠다. RDMA란 무엇인가RDMA는 이름 그대로 원격 시스템의 메모리에 직접 접근할 수 있는 기술즉 네트워크를 통해 데이터를 전송할 때 CPU를 거치지 않고 메모리 간 직접 데이터 전송이 가능하다.일반적인 네트워크 통신 방식일반적인 네트워크 통신에서는 다음과 같은 과정이 발생한다.Application │CPU │Kernel Network Stack │NIC │Network │NIC │CPU │Application 이 구조에서는 다음과 같은 문제가 있다.CPU 사용량 증가Kernel 처리 오버헤드높은 latency즉 네트워크 통신을 할 때 CPU와 OS 네트워크 스택을 반드시 거쳐야 한다.RDMA..

반응형
LIST