🔧 Engineering/📁 GPU & Hardware

GPU 모듈 교체(H100 기준)

만두개 2026. 4. 22. 10:00
반응형
SMALL

1. 전원 차단 및 GPU Tray 분리

  • 서버 전원을 완전히 종료
  • 전원 공급 장치(PSU) 모두 제거

이후

  • GPU Tray를 서버에서 분리
  • Tray 상단 덮개를 제거

→ 내부에 GPU 8개(SXM 모듈) 확인 가능


2. 문제 GPU 모듈 위치 확인

사전에 확인한 정보 기준으로:

  • GPU 번호 (nvidia-smi)
  • SXM 번호 (IPMI)
  • Serial Number

를 대조하여 → 교체할 GPU 모듈 정확히 특정


왼쪽은 덮개 제거 / 오른쪽은 1 → 3 → 2 → 4  순서에 맞춰 나사 풀기.

3. GPU 모듈 분리

  • 해당 GPU 모듈의 플라스틱 덮개 제거

이후

  • 드라이버를 이용해 고정 나사 풀기

나사 위치

  • 총 4개
  • 히트싱크와 함께 고정되어 있음
  • 바깥쪽 위치에 나사 있음

주의사항

  • 한 번에 한쪽만 풀지 않기
  • 대각선 방향으로 번갈아가며 풀기

예:

1 → 3 → 2 → 4 순서 반복
 
  • 한 번에 다 풀지 말고
    → 3번 정도 나눠서 조금씩 풀기

4. GPU 모듈 교체

  • 기존 GPU 모듈 제거
  • 새 GPU 모듈 준비

작업 순서:

  1. 하단 커넥터 보호 덮개 제거
  2. 보호 필름 제거
  3. 슬롯 위치에 맞게 모듈 삽입

5. 나사 체결

  • 분리 시와 동일하게 진행

주의사항

  • 대각선 순서로 체결
  • 한 번에 끝까지 조이지 않기
  • 균일하게 압력 분산되도록 천천히 조이기

6. 마무리

  • 플라스틱 덮개 다시 장착
  • GPU Tray를 서버에 재장착
  • 전원 연결 후 부팅

한 줄 정리

GPU 모듈 교체는 전원 차단 → Tray 분리 → 문제 GPU 확인 → 나사 대각선 분해/조립 → 모듈 교체 순서로 진행하면 된다

반응형
LIST