반응형
SMALL

1. 전원 차단 및 GPU Tray 분리
- 서버 전원을 완전히 종료
- 전원 공급 장치(PSU) 모두 제거
이후
- GPU Tray를 서버에서 분리
- Tray 상단 덮개를 제거
→ 내부에 GPU 8개(SXM 모듈) 확인 가능


2. 문제 GPU 모듈 위치 확인
사전에 확인한 정보 기준으로:
- GPU 번호 (nvidia-smi)
- SXM 번호 (IPMI)
- Serial Number
를 대조하여 → 교체할 GPU 모듈 정확히 특정


3. GPU 모듈 분리
- 해당 GPU 모듈의 플라스틱 덮개 제거
이후
- 드라이버를 이용해 고정 나사 풀기
나사 위치
- 총 4개
- 히트싱크와 함께 고정되어 있음
- 바깥쪽 위치에 나사 있음
주의사항
- 한 번에 한쪽만 풀지 않기
- 대각선 방향으로 번갈아가며 풀기
예:
1 → 3 → 2 → 4 순서 반복
- 한 번에 다 풀지 말고
→ 3번 정도 나눠서 조금씩 풀기


4. GPU 모듈 교체
- 기존 GPU 모듈 제거
- 새 GPU 모듈 준비
작업 순서:
- 하단 커넥터 보호 덮개 제거
- 보호 필름 제거
- 슬롯 위치에 맞게 모듈 삽입

5. 나사 체결
- 분리 시와 동일하게 진행
주의사항
- 대각선 순서로 체결
- 한 번에 끝까지 조이지 않기
- 균일하게 압력 분산되도록 천천히 조이기

6. 마무리
- 플라스틱 덮개 다시 장착
- GPU Tray를 서버에 재장착
- 전원 연결 후 부팅
한 줄 정리
GPU 모듈 교체는 전원 차단 → Tray 분리 → 문제 GPU 확인 → 나사 대각선 분해/조립 → 모듈 교체 순서로 진행하면 된다
반응형
LIST
'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글
| GPU 모듈 교체 후 펌웨어 업데이트 (0) | 2026.04.22 |
|---|---|
| DGX H100 GPU 모듈 교체 전 확인 방법 (GPU ↔ SXM ↔ Serial 매핑) (0) | 2026.04.22 |
| Dell iDRAC / HP iLO 계정 초기화 및 비밀번호 재설정 방법 (0) | 2026.03.31 |
| GPU 서버 랙마운트, 벤더별 레일 설치 방식 (3) | 2026.03.30 |
| UPMF 정리 (mlxfwmanager 보다가 알게 된 개념) (0) | 2026.03.26 |