🔧 Engineering/📁 Infra & System

GPU 서버 점검 명령어 정리

만두개 2026. 3. 17. 16:03
반응형
SMALL

OS 버전

lsb_release -a
cat /etc/*release
  • OS / 커널 버전 확인
  • 드라이버나 CUDA 문제 있을 때 먼저 봄

CPU

lscpu
  • 코어 수, 아키텍처 확인
  • NUMA 구조도 같이 확인 가능

GPU

nvidia-smi
  • GPU 사용률 / 온도 / 프로세스 확인
  • 이상 있으면 여기서 거의 바로 보임

MEMORY

free -h
  • 메모리 사용량 확인
  • 부족하면 바로 문제 생김

IP / 네트워크

ip -br a
  • 인터페이스랑 IP 상태 확인

DISK

사용량

df -h
  • 디스크 꽉 찼는지 확인

전체 구조

lsblk
 
  • 디스크 / 파티션 / RAID 확인

Docker

nvidia-docker version
  • GPU docker 정상인지 확인

CUDA

nvcc -V
  • CUDA 버전 확인

cuDNN

cat /usr/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
  • cuDNN 버전 확인

Infiniband

ibstat
  • IB 상태 확인 (UP인지 체크)

NIC

lshw -class network -short
  • 네트워크 카드 확인

NVLINK

dcgmi nvlink -s
dcgmi discovery -l
  • GPU 간 NVLINK 상태 확인

GPU 토폴로지

nvidia-smi topo -m
  • GPU 연결 구조 확인
  • NV12 뜨는지 체크

NVIDIA 라이브러리

ll /usr/lib/x86_64-linux-gnu/libnvidia-nscq*
  • 관련 라이브러리 있는지 확인

펌웨어

nvsm show versions | less
  • 전체 펌웨어 버전 확인

헬스 체크

nvsm show health | tee health.log
  • 전체 상태 확인
  • 로그로 저장도 가능

IB 펌웨어

mlxfwmanager
  • IB 펌웨어 확인

정리

보통은 아래 순서로 확인함

  1. OS / CPU / MEMORY
  2. GPU
  3. DISK
  4. 네트워크
  5. CUDA / Docker
  6. NVLINK
  7. NVSM

이 정도 보면 대부분 문제 위치는 바로 나옴

반응형
LIST