반응형
SMALL

DGX 13

DGX Station A100 하드웨어 장애 장비 U.2 NVMe 데이터 백업 및 fstab 등록

처음 가이드를 검토했을 때는 장비 교체 후 RAID를 다시 잡아야 한다는 내용이 있었음. 이 문구를 보고 당연히 데이터용 U.2 스토리지들이 RAID로 묶여 있을 것이라 판단 → M.2 백업을 하려고 했음 막상 장비 상태를 확인해 보니 RAID가 잡혀있지 않음df -h#또는lsblk 굳이 M.2로 백업을 할 필요가 없어짐.고장 난 장비의 U.2 드라이브 자체를 정상 장비로 옮겨 심는 직관적인 방법을 선택shutdown -h now장비를 종료하고 전원 케이블 뽑고 대기 하다가 꺼지면 U.2 빼기 https://docs.nvidia.com/dgx/dgx-station-a100-service-manual/replace-u2-cache-drive.html 고장 장비에서 U.2 탈거 후 정상 장비에 장착.장비를 ..

DGX H100 GPU 모듈 교체 전 확인 방법 (GPU ↔ SXM ↔ Serial 매핑)

1. nvidia-smi에서 문제 GPU 확인nvidia-smiGPU 온도 확인특정 GPU만 온도가 튀는지 확인GPU 온도 문제의 경우 혼자 온도가 튀는 GPU를 찾으면 됨2. GPU 번호 + Bus ID 확인nvidia-smi --query-gpu=index,pci.bus_id --format=csv문제 GPU의 Bus ID 확인3. Serial Number 확인nvidia-smi -q -i Bus ID 기준으로 해당 GPU 찾아서 Serial Number까지 확인교체 대상 식별용4. IPMI에서 SXM 확인ipmitool sel elist GPU 온도 문제의 경우Upper Critical going high 로 검색하면 어떤 SXM에서 문제 발생했는지 확인 가능5. dmidecode로 물리 위치 매핑..

DGX 서버 설치 중 계정/비밀번호를 잘못 설정했을 때 초기화하는 방법

외근을 나가서 DGX 서버를 처음 설치하고 IP 설정까지 진행하는 과정에서, 실수로 계정 이름이나 비밀번호를 잘못 입력해서 로그인이 안 되는 경우를 만들었다.예를 들어 아이디를 nvidia1, 비밀번호를 nvidia1로 설정하려고 했는데 오타가 나거나 비밀번호 확인 단계에서 다르게 입력해버리면 첫 부팅 직후부터 로그인 자체가 불가능해진다.이 글에서는 이런 상황에서 계정을 초기화하고 다시 설정하는 방법을 정리했다.상황 정리DGX 서버(B200, H100, H200 등)는 첫 부팅 시 First Boot Wizard를 통해 아래 항목을 설정한다.언어, 로케일, 타임존관리자 계정(username + password)BMC 관리자 비밀번호GRUB 부트로더 비밀번호기본 네트워크 인터페이스이 과정에서 계정 정보를 ..

GPU 서버 랙마운트, 벤더별 레일 설치 방식

GPU 서버를 랙에 설치할 때, 벤더마다 레일 설치 방식이 다르다.DGX, OVX(Dell 서버), ASUS/Supermicro 서버를 직접 설치해본 경험으로 정리해보겠다.크게 3가지 방식으로 나뉜다.구분대표 서버레일 방식핵심 키워드Type ANVIDIA DGX (B200 등)선반형(Shelf) 랙마운트 킷클립 + 케이지넛 + 나사 고정Type BOVX — Dell PowerEdge 기반ReadyRails 슬라이딩 레일툴리스(Tool-less) + J-슬롯 드롭인Type CASUS / Supermicro 서버프릭션(Friction) 레일 또는 나사 고정 레일나사 고정(Tooled) + 브라켓 조립Type A. NVIDIA DGX — 선반형(Shelf) 랙마운트 킷참고: NVIDIA DGX B200 Ser..

UPMF 정리 (mlxfwmanager 보다가 알게 된 개념)

mlxfwmanager 문서 보다가 UPMF라는 개념이 따로 있어서 정리해봤다.2026.03.26 - [🔧 Engineering/📁 GPU & Hardware] - mlxfwmanager 정리 mlxfwmanager 정리mlxfwmanager는 Mellanox(NVIDIA) NIC의 펌웨어를 조회하고 업데이트할 때 사용하는 CLI 도구이다.1. 역할NIC 펌웨어 버전 확인현재 버전 vs 사용 가능 버전 확인펌웨어 업데이트 수행2. 기본 사용1) 디바이스mandoog.tistory.com2026.03.26 - [🔧 Engineering/📁 GPU & Hardware] - mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리 mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리처음에..

mlxfwmanager 정리

mlxfwmanager는 Mellanox(NVIDIA) NIC의 펌웨어를 조회하고 업데이트할 때 사용하는 CLI 도구이다.1. 역할NIC 펌웨어 버전 확인현재 버전 vs 사용 가능 버전 확인펌웨어 업데이트 수행2. 기본 사용1) 디바이스 활성화mst startmst status→ /dev/mst/... 디바이스 확인2) 펌웨어 조회특정 장치를 조회mlxfwmanager -d --query 컴퓨터에 있는 모든 장치를 조회mlxfwmanager --query→ 확인 내용Device Type (ConnectX-7 등)FW Version (현재)Available VersionPSID3) 펌웨어 업데이트mlxfwmanager --update 또는mlxfwmanager -i --update3. 작업 흐름mst ..

mlxfwmanager 보고 이해한 DGX 네트워크 구조 정리

처음에 mlxfwmanager --query로 NIC 확인했을 때 ConnectX-7이 여러 개 뜨는 걸 보고 구조를 조금 이해하게 됐다.출력 내용을 보면each up to 400Gb/s IB (default mode) or 400GbE → 8개400Gb/s IB and 200GbE; dual-port QSFP → 2개이걸 기반으로 보면 DGX 내부 네트워크는 두 가지로 나뉘는 걸 볼 수 있었다.1. OSFP 포트 (InfiniBand)장비 가운데에 있는 OSFP 포트는 InfiniBand 전용으로 사용하는 구간이다.물리적으로 4포트내부적으로는 8개의 포트처럼 동작속도는 400G 기준GPU 간 통신이나 노드 간 학습 데이터 교환은 이쪽으로 다 지나간다.2.QSFP 기반 ConnectX-7 (Etherne..

CPU Tray 교체 후 펌웨어 정렬 작업

CPU Tray 교체 이후에는 하드웨어만 맞춘 상태이며, 각 구성 요소의 펌웨어 버전을 맞추는 작업이 필요하다.1. 왜 펌웨어를 맞추는가Tray마다 펌웨어 버전이 다를 수 있음버전 mismatch 발생 시문제장치 인식 불가네트워크 불량GPU / NVLink 오류부팅 문제2. 확인 대상▪︎ 필수 확인 항목BMC firmwareBIOS (SBIOS)ConnectX-7 NIC firmwareOSFP InfiniBand firmware3. 작업 순서1) BMC 접속BMC Web 또는 SSH 접속현재 펌웨어 버전 확인 2) NIC 펌웨어 확인 (중요)mst startmlxfwmanager --query ConnectX-7 버전 확인3) IB 포트 확인ibstat Link 상태 확인4) 펌웨어 업그레이드▪︎ Me..

DGX 설치(물리+초기설정)

1. 마운트 및 케이블 연결▪︎ 랙마운트레일 설치 후 서버 장착무게가 크기 때문에 2인 이상 작업U 위치 및 공간 확보 확인▪︎ 전원 케이블 연결PSU 다중 구성 → PDU 분산 연결A/B 전원 이중화 고려▪︎ 네트워크 케이블 연결BMC 포트 (1G, RJ45커넥터)OS 관리 포트 (10G, RJ45 커넥터)※ 케이블 준비1G × 4 (BMC)10G × 4 (OS / Remote) - CAT7 네트워크 결선→ 기본 2개 + 장애 대비 여유2. 부팅 및 BIOS 진입▪︎ 진입 방법전원 ONDEL 키 입력BIOS Setup 진입3. BIOS → BMC 설정▪︎ 경로BIOS → BMC Configuration→ Network Configuration▪︎ 설정DHCP → DisableStatic IP 설정예시B..

DGX H100 / H200 User Guide 정리

사전체크(H100/H200 시스템에 대해서)▪︎ 기본 구성GPU : H200 × 8CPU : Intel Xeon × 2Memory : 2TBOS Disk : M.2 NVMe (RAID1)Data Disk : U.2 NVMe × 8 (RAID0)NetworkOSFP (InfiniBand / Cluster)Ethernet (Storage / Mgmt)BMC (RJ45)▪︎ 물리 정보8U 장비무게 약 130kg→ 혼자 작업 불가→ 레일 설치 필수▪︎ 전원PSU 6개 (4+2 redundancy)최소 3개 있어야 부팅 가능A/B 전원 분리 연결▪︎ 공기 흐름Front → Back (기본 구조)Cold aisle → Hot aisle 맞춰 설치→ 방향 틀리면 냉각 안됨▪︎ 전면 확인Power LED1Hz 깜빡임 ..

반응형
LIST