반응형
SMALL

SuperMicro 5

GPU 서버 랙마운트, 벤더별 레일 설치 방식

GPU 서버를 랙에 설치할 때, 벤더마다 레일 설치 방식이 다르다.DGX, OVX(Dell 서버), ASUS/Supermicro 서버를 직접 설치해본 경험으로 정리해보겠다.크게 3가지 방식으로 나뉜다.구분대표 서버레일 방식핵심 키워드Type ANVIDIA DGX (B200 등)선반형(Shelf) 랙마운트 킷클립 + 케이지넛 + 나사 고정Type BOVX — Dell PowerEdge 기반ReadyRails 슬라이딩 레일툴리스(Tool-less) + J-슬롯 드롭인Type CASUS / Supermicro 서버프릭션(Friction) 레일 또는 나사 고정 레일나사 고정(Tooled) + 브라켓 조립Type A. NVIDIA DGX — 선반형(Shelf) 랙마운트 킷참고: NVIDIA DGX B200 Ser..

[HGX B200] M.2 NVMe 장애 → 물리 교체 작업 정리

오늘 Supermicro HGX B200 서버에서 M.2 장애로 외근 나가서 교체 작업 진행했다.해당 서버는 OS 디스크가 M.2 NVMe 2개로 RAID1 구성되어 있었고, 정상이라면 디스크가 2개 모두 인식되어야 하는데 하나만 보이는 상태였다.RAID1이라 한쪽 디스크가 살아 있어서 서버는 정상 부팅 및 동작 중이었지만, 이미 미러링이 깨진 상태라 디스크 장애로 판단하고 교체 진행했다.외근 나오기 전에 장애 디스크 시리얼 넘버는 확인한 상태였고, 현장에서는 해당 디스크만 물리적으로 교체하는 작업을 진행했다.작업 내용서버는 핫스왑이 불가능한 구조라 전원을 완전히 내린 후 작업했다.서버 전원 종료 후 전원 케이블 제거케이스 오픈 후 마더보드 접근M.2 NVMe 드라이브 중 장애 디스크 제거(사전에 확인한..

Supermicro B200 PSU 교체 + fd test

PSU가 전부 장애로 확인된 Supermicro B200 서버 PSU 교체 후 정상 동작 여부를 확인하기 위해 FD(Field Diagnostic) Test를 진행했다.작업 과정과 진행했던 내용을 정리하여 공부해보겠다.FD Test란?FD Test는 Field Diagnostic Test의 약자로, 현장에서 하드웨어 상태를 점검하기 위해 사용하는 진단 툴이다.주로 다음과 같은 상황에서 사용된다.하드웨어 교체 후 정상 동작 확인시스템 장애 원인 확인로그 수집1. PSU 교체먼저 서버의 PSU(Power Supply Unit)를 교체한다.PSU 교체 후에는 서버에서 정상적으로 인식되는지 확인해야 한다.2. BMC IP 확인PSU 교체 후 BMC 접속을 위해 BMC IP를 확인한다.ipmitool lan pr..

Supermicro 워크스테이션 서버 설치 정리 (Ubuntu / RAID / 초기 설정)

Supermicro 워크스테이션 서버를 설치하면서 진행했던 과정을 정리해보려고 한다.Ubuntu 기반 서버였고, BIOS 설정부터 RAID 구성, Ubuntu 설치 후 기본 패키지 설정까지 진행했다.신입이라 아직 하나씩 배우는 단계지만, 다음에 또 설치할 일이 있을 것 같아서 작업하면서 했던 순서를 정리해두는 용도로 작성했다.BIOS 진입먼저 설치 USB를 서버에 연결한 후 전원을 켠다.부팅 시 Delete 키를 눌러 BIOS로 진입한다.여기서 먼저 RAID 설정을 진행한다.RAID 설정BIOS에서 다음 경로로 이동한다.Advanced→ Broadcom SAS 3808 여기서 RAID 설정 메뉴로 들어간다.이후 다음 순서로 진행한다.Main Menu→ Drive Management 여기서 현재 디스크와 ..

Supermicro HGX B200 8U System Serial Number / Module Serial Number 확인 방법

1. System Serial Number 확인Supermicro HGX 서버에서 System Serial Number는 섀시 기준 장비 식별 번호이다.장비 등록, RMA, 벤더 케이스 생성 시 사용된다. *섀시(Chassis) : 서버의 물리적인 본체 케이스 = 서버 하드웨어를 담고 있는 구조물 전체 ① 장비 라벨 확인가장 간단한 방법은 서버 전면 라벨 확인이다.HGX B200 8U 서버의 경우 전면 핸들 또는 전면 프레임 쪽에 바코드 라벨이 붙어 있다.예시A936564X5501959 이 값이 System Serial Number이다.보통 다음 위치에서 확인할 수 있다.전면 핸들 라벨섀시 전면 프레임후면 PSU 근처 라벨(장비 모델에 따라 위치가 다를 수 있음)② OS에서 확인Linux에서는 dmide..

반응형
LIST