반응형
SMALL

OS 버전
lsb_release -a
cat /etc/*release
- OS / 커널 버전 확인
- 드라이버나 CUDA 문제 있을 때 먼저 봄
CPU
lscpu
- 코어 수, 아키텍처 확인
- NUMA 구조도 같이 확인 가능
GPU
nvidia-smi
- GPU 사용률 / 온도 / 프로세스 확인
- 이상 있으면 여기서 거의 바로 보임
MEMORY
free -h
- 메모리 사용량 확인
- 부족하면 바로 문제 생김
IP / 네트워크
ip -br a
- 인터페이스랑 IP 상태 확인
DISK
사용량
df -h
- 디스크 꽉 찼는지 확인
전체 구조
lsblk
- 디스크 / 파티션 / RAID 확인
Docker
nvidia-docker version
- GPU docker 정상인지 확인
CUDA
nvcc -V
- CUDA 버전 확인
cuDNN
cat /usr/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
- cuDNN 버전 확인
Infiniband
ibstat
- IB 상태 확인 (UP인지 체크)
NIC
lshw -class network -short
- 네트워크 카드 확인
NVLINK
dcgmi nvlink -s
dcgmi discovery -l
- GPU 간 NVLINK 상태 확인
GPU 토폴로지
nvidia-smi topo -m
- GPU 연결 구조 확인
- NV12 뜨는지 체크
NVIDIA 라이브러리
ll /usr/lib/x86_64-linux-gnu/libnvidia-nscq*
- 관련 라이브러리 있는지 확인
펌웨어
nvsm show versions | less
- 전체 펌웨어 버전 확인
헬스 체크
nvsm show health | tee health.log
- 전체 상태 확인
- 로그로 저장도 가능
IB 펌웨어
mlxfwmanager
- IB 펌웨어 확인
정리
보통은 아래 순서로 확인함
- OS / CPU / MEMORY
- GPU
- DISK
- 네트워크
- CUDA / Docker
- NVLINK
- NVSM
이 정도 보면 대부분 문제 위치는 바로 나옴
반응형
LIST
'🔧 Engineering > 📁 Infra & System' 카테고리의 다른 글
| 리눅스 시스템의 핵심: fstab & GRUB 정리 (0) | 2026.03.20 |
|---|---|
| Linux Mount (마운트) 정리 (0) | 2026.03.17 |
| Docker 기본 명령어 정리 (0) | 2026.03.16 |
| Linux 로그 확인 (journalctl) (0) | 2026.03.16 |
| Server Boot 과정 (0) | 2026.03.16 |