🔧 Engineering/📁 Infra & System

DGX Station A100 하드웨어 장애 장비 U.2 NVMe 데이터 백업 및 fstab 등록

만두개 2026. 5. 29. 10:27
반응형
SMALL

DGX A100 station user guide 참고

처음 가이드를 검토했을 때는 장비 교체 후 RAID를 다시 잡아야 한다는 내용이 있었음. 이 문구를 보고 당연히 데이터용 U.2 스토리지들이 RAID로 묶여 있을 것이라 판단 → M.2 백업을 하려고 했음

 

막상 장비 상태를 확인해 보니 RAID가 잡혀있지 않음

df -h
#또는
lsblk

 

굳이 M.2로 백업을 할 필요가 없어짐.

고장 난 장비의 U.2 드라이브 자체를 정상 장비로 옮겨 심는 직관적인 방법을 선택

shutdown -h now

장비를 종료하고 전원 케이블 뽑고 대기 하다가 꺼지면 U.2 빼기

 

https://docs.nvidia.com/dgx/dgx-station-a100-service-manual/replace-u2-cache-drive.html

 

고장 장비에서 U.2 탈거 후 정상 장비에 장착.

장비를 켜고 OS 레벨에서 해당 NVMe 스토리지 볼륨이 정상적으로 인식되는지 체크

→ 디바이스 명이 잘 뜨고 데이터가 그대로 살아있는 것을 확인

lsblk

여기서 확인

 

빈 폴더 하나 만들기 

mkdir -p /mnt/data_backup

데이터를 들여다 볼 폴더임.

mount /dev/nvme3n1 /mnt/data_backup

마운트하기

 

데이터확인

df -h
ls -l /mnt/data_backup

용량이나 기존에 찾던 데이터와 소스코드가 보이면 백업 성공.

 

스토리지 인식은 완료되었지만, 장비를 재부팅하더라도 자동으로 마운트되도록 하려면 시스템 설정 = fstab 을 잡아줌

blkid

UUID 확인 하고

vi /etc/fstab

fstab 파일에 자동 마운트 설정을 추가

UUID=확인한-UUID-값  /마운트할/경로  ext4  defaults  0  2

이렇게 추가 하면 됨.

umount /mnt/data_backup

우선 기존에 연결했던 마운트를 일시적으로 해제

mount -a

오류 없이 정상적으로 마운트되는지 확인

반응형
LIST

'🔧 Engineering > 📁 Infra & System' 카테고리의 다른 글

오픈 커널 모듈  (0) 2026.05.22
nomodeset 이란?  (0) 2026.05.21
LLM 이란?  (0) 2026.03.23
Redfish API 정리  (0) 2026.03.20
리눅스 시스템의 핵심: fstab & GRUB 정리  (0) 2026.03.20