반응형
SMALL
— GPU 메모리 오류의 의미와 점검 방법
2026.03.03 - [🔧 Engineering/📁 GPU & Hardware] - NVIDIA-SMI 보는 법 정리
NVIDIA-SMI 보는 법 정리
GPU 서버를 운영하다 보면 가장 먼저 확인하게 되는 명령어가 nvidia-smi 다.실제로 GPU 서버 점검 방법의 기본은 이 명령어를 정확히 읽는 것에서 시작한다.1. nvidia-smi란?nvidia-smi는 NVIDIA GPU 상태를 확
mandoog.tistory.com
1. ECC란?
ECC(Error Correcting Code)는 GPU 메모리에서 발생하는 비트 오류를 감지하고 수정하는 기능이다.
데이터센터용 GPU (A100, H100 등)에서는 ECC 기능이 기본적으로 활성화되어 있다.
2. ECC 에러 종류
nvidia-smi -q로 확인 가능:
nvidia-smi -q | grep -i ecc
Correctable Error (CE)
- 1비트 오류
- 자동 수정 가능
- 일시적 오류일 가능성 높음
→ 소량 발생은 크게 문제되지 않음
Uncorrectable Error (UE)
- 수정 불가능한 오류
- 데이터 손상 가능성
- GPU 리셋 또는 교체 고려
→ 반복 발생 시 RMA 대상 가능성
3. ECC 에러 점검 방법
현재 상태 확인
nvidia-smi -q
ECC 섹션에서:
- Volatile
- Aggregate
- Single Bit
- Double Bit
값을 확인한다.
4. ECC 에러 발생 시 대응
1. 단발성 CE → 모니터링
2. 반복 CE 증가 → 메모리 불안정 가능성
3. UE 발생 → 즉시 점검 필요
GPU 서버 점검 방법 중
ECC 상태 확인은 장비 안정성 판단에 중요하다.
5. 정리
ECC 에러는 GPU 메모리 건강 상태를 보여주는 지표다.
특히 데이터센터 환경에서는 단순 연산 오류가 아니라 하드웨어 문제의 신호일 수 있다.
반응형
LIST
'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글
| DGX H100 / H200 펌웨어 업데이트 정리 (0) | 2026.03.04 |
|---|---|
| BMC란 무엇인가 (0) | 2026.03.03 |
| NVIDIA XID 에러 정리 (0) | 2026.03.03 |
| GPU 인식 안 될 때 점검 순서 정리 (0) | 2026.03.03 |
| NVIDIA-SMI 보는 법 정리 (0) | 2026.03.03 |