🔧 Engineering/📁 GPU & Hardware

[HGX B200] M.2 NVMe 장애 → 물리 교체 작업 정리

만두개 2026. 3. 18. 15:02
반응형
SMALL

오늘 Supermicro HGX B200 서버에서 M.2 장애로 외근 나가서 교체 작업 진행했다.

해당 서버는 OS 디스크가 M.2 NVMe 2개로 RAID1 구성되어 있었고, 정상이라면 디스크가 2개 모두 인식되어야 하는데 하나만 보이는 상태였다.

RAID1이라 한쪽 디스크가 살아 있어서 서버는 정상 부팅 및 동작 중이었지만, 이미 미러링이 깨진 상태라 디스크 장애로 판단하고 교체 진행했다.

외근 나오기 전에 장애 디스크 시리얼 넘버는 확인한 상태였고, 현장에서는 해당 디스크만 물리적으로 교체하는 작업을 진행했다.


작업 내용

서버는 핫스왑이 불가능한 구조라 전원을 완전히 내린 후 작업했다.

  1. 서버 전원 종료 후 전원 케이블 제거
  2. 케이스 오픈 후 마더보드 접근
  3. M.2 NVMe 드라이브 중 장애 디스크 제거
    (사전에 확인한 시리얼 기준으로 식별)
  4. 교체용 M.2 NVMe 장착 후 나사 고정
  5. 마더보드 및 케이스 재조립
  6. 전원 연결 후 서버 부팅

확인

부팅 이후 아래 명령어로 디스크 인식 상태 확인

lsblk
 

RAID1 구성이라 교체 이후 자동으로 rebuild가 진행될 수 있기 때문에 추가로 RAID 상태 확인이 필요하다.


문제 발생

디스크는 정상적으로 2개 보이는데 기존과 비교했을 때 디스크 슬롯(디바이스 이름)이 변경된 상태 확인됨

예)

  • 기존:
    /dev/nvme0n1
    /dev/nvme1n1
  • 교체 후:
    /dev/nvme1n1
    /dev/nvme2n1

이런 식으로 순서나 번호가 바뀌는 현상 발생하였고 이는 따로 정리하겠다.


정리

  • M.2 RAID1 구성에서 1개 디스크 미인식 발생
  • 서비스 영향은 없었지만 이중화 깨진 상태
  • 장애 디스크 식별 후 물리 교체 진행
  • 교체 후 디스크 인식 정상 확인
반응형
LIST