🔧 Engineering/📁 Troubleshooting

HGX B200 Superpod M.2 장애 및 RAID1 복구 작업

만두개 2026. 3. 19. 10:41
반응형
SMALL

디스크 장애를 확인할 수 있는 커널로그

장애 상황

  • NVMe M.2 1.92TB 2개로 Software RAID1 구성
  • 디스크 1개가 removed 상태

RAID1이라 서버 자체는 동작 중이었지만 미러링이 깨진 상태라 교체 진행

2026.03.18 - [🔧 Engineering/📁 GPU & Hardware] - [HGX B200] M.2 NVMe 장애 → 물리 교체 작업 정리

 

[HGX B200] M.2 NVMe 장애 → 물리 교체 작업 정리

오늘 Supermicro HGX B200 서버에서 M.2 장애로 외근 나가서 교체 작업 진행했다.해당 서버는 OS 디스크가 M.2 NVMe 2개로 RAID1 구성되어 있었고, 정상이라면 디스크가 2개 모두 인식되어야 하는데 하나만

mandoog.tistory.com


교체 이후 문제 발생

NVMe M.2 물리 교체 이후 부팅했더니 정상 부팅이 아닌 Emergency mode로 진입

  • root 패스워드 입력하면 로그인 가능

원인

확인해보니 새 디스크 장착 이후 NVMe 디스크 슬롯 번호가 변경됨

  • 기존:
    • nvme6n1 (fail)
    • nvme7n1 (정상)
  • 변경 후:
    • nvme0n1 (new)
    • nvme1n1 (기존 정상)

디바이스 이름이 바뀌면서 fstab 및 부팅 관련 설정이 꼬여 Emergency mode 발생


조치 과정

1. 파티션 구조 복제

기존 정상 디스크 기준으로 신규 디스크에 파티션 복제

sgdisk -R /dev/nvme0n1 /dev/nvme1n1
sgdisk -G /dev/nvme0n1

 

2. RAID1 배열에 디스크 추가

mdadm --manage /dev/md0 --add /dev/nvme0n1p2

 

 

3. 리빌딩 상태 확인

cat /proc/mdstat
  • 리빌딩 약 2시간 40분 소요

 

 

4. EFI 파티션 생성

mkfs.vfat -F 32 /dev/nvme0n1p1

 

 

5. /etc/fstab 수정

디바이스 이름 변경으로 인해 UUID 기준 재설정

  • 기존 fail 디스크 UUID 제거
  • 정상 디스크 UUID로 변경

예)

  • A570-B755 (기존 nvme6n1p1 UUID)
    → A58C-C6B7 (현재 nvme1n1p1 UUID)
  • 옵션에 nofail 추가
vfat defaults,nofail 0 1
 

 

6. GRUB 재설치

(1) /boot/efi 마운트 확인

마운트 안 되어 있으면 수동 마운트

mount /dev/nvme1n1p1 /boot/efi
 

(2) 신규 디스크에 GRUB 설치

grub-install /dev/nvme0n1
 

(3) 기존 디스크에도 GRUB 재설치

grub-install /dev/nvme1n1

 

(4) 부팅 메뉴 갱신

update-grub

 

7. RAID 상태 최종 확인

cat /proc/mdstat
 

→ UU 상태 확인

 

8. 재부팅

reboot
  • Emergency mode에서는 reboot이 안될 수 있어서 BMC에서 power cycle 진행

정리

  • M.2 RAID1 구성에서 디스크 1개 장애 발생
  • 물리 교체 이후 NVMe 디바이스 번호 변경 발생
  • fstab 및 부팅 설정 불일치로 Emergency mode 진입
  • 파티션 복제 → RAID 재구성 → GRUB 재설치로 복구 완료
반응형
LIST