🔧 Engineering/📁 GPU & Hardware

ECC 에러란 무엇인가?

만두개 2026. 3. 3. 14:10
반응형
SMALL

— GPU 메모리 오류의 의미와 점검 방법

2026.03.03 - [🔧 Engineering/📁 GPU & Hardware] - NVIDIA-SMI 보는 법 정리

 

NVIDIA-SMI 보는 법 정리

GPU 서버를 운영하다 보면 가장 먼저 확인하게 되는 명령어가 nvidia-smi 다.실제로 GPU 서버 점검 방법의 기본은 이 명령어를 정확히 읽는 것에서 시작한다.1. nvidia-smi란?nvidia-smi는 NVIDIA GPU 상태를 확

mandoog.tistory.com

 


1. ECC란?

ECC(Error Correcting Code)는 GPU 메모리에서 발생하는 비트 오류를 감지하고 수정하는 기능이다.

데이터센터용 GPU (A100, H100 등)에서는 ECC 기능이 기본적으로 활성화되어 있다.


2. ECC 에러 종류

nvidia-smi -q로 확인 가능:

nvidia-smi -q | grep -i ecc
 

 Correctable Error (CE)

  • 1비트 오류
  • 자동 수정 가능
  • 일시적 오류일 가능성 높음

→ 소량 발생은 크게 문제되지 않음


 Uncorrectable Error (UE)

  • 수정 불가능한 오류
  • 데이터 손상 가능성
  • GPU 리셋 또는 교체 고려

→ 반복 발생 시 RMA 대상 가능성


3. ECC 에러 점검 방법

현재 상태 확인

nvidia-smi -q
 

ECC 섹션에서:

  • Volatile
  • Aggregate
  • Single Bit
  • Double Bit

값을 확인한다.


4. ECC 에러 발생 시 대응

1. 단발성 CE → 모니터링
2. 반복 CE 증가 → 메모리 불안정 가능성
3. UE 발생 → 즉시 점검 필요

GPU 서버 점검 방법 중
ECC 상태 확인은 장비 안정성 판단에 중요하다.


5. 정리

ECC 에러는 GPU 메모리 건강 상태를 보여주는 지표다.

특히 데이터센터 환경에서는 단순 연산 오류가 아니라 하드웨어 문제의 신호일 수 있다.

반응형
LIST