반응형
SMALL
1. 전체 서버 느림
- top
→ CPU 사용률, 어떤 프로세스가 CPU 점유하는지 확인 - mpstat -P ALL 1 3
→ -P ALL: 모든 CPU 코어 표시
→ 1: 1초 간격 / 3: 3번 출력
→ 각 코어별 사용률, 특정 코어 과부하 여부 확인 - vmstat 1 5
→ 1초 간격 5번 출력
→ r: CPU 대기 프로세스 수
→ wa: I/O 대기 여부 확인 - iostat -xz 1 3
→ -x: 디스크 상세 정보
→ -z: 사용 디스크만 표시
→ %util: 디스크 사용률
→ await: 응답 지연 시간 확인
결론
CPU 높고 r 값 높으며 디스크 정상 → CPU 병목
2. GPU 작업 느림
- nvidia-smi
→ GPU 개수, 사용률(util), 온도, 메모리 사용량 확인 - nvidia-smi dmon
→ GPU 사용률, 전력, 메모리, 온도 실시간 확인 - nvidia-smi -q
→ GPU 전체 상세 상태 확인 - nvidia-smi -q | grep -i clocks
→ GPU 클럭이 낮게 제한되어 있는지 확인 - nvidia-smi -q | grep -i throttle
→ thermal, power 제한 여부 확인
결론
GPU util 낮음 → GPU 문제 아님 (CPU 또는 환경 문제)
3. GPU 하나 온도 높음
- nvidia-smi
→ GPU별 온도 확인 - nvidia-smi dmon
→ 해당 GPU 사용률(util) 확인 - nvidia-smi -q -i GPU번호
→ 특정 GPU의 온도, 전력, throttle 상태 확인 - ipmitool sensor
→ 팬 속도, 시스템 온도 센서 확인
결론
util 높으면 정상 / util 낮은데 온도 높으면 팬 또는 HW 문제
4. GPU 안 잡힘
- nvidia-smi
→ GPU 개수 확인 (누락 여부) - lspci | grep -i nvidia
→ PCI 레벨에서 GPU 인식 여부 확인 - dmesg | grep -i nvidia
→ 드라이버 로딩 실패, GPU 초기화 에러 확인 - dmesg | grep -i xid
→ GPU 에러 코드(Xid) 확인 - dcgmi diag -r 3
→ GPU 메모리, PCI, NVLink 등 종합 테스트 결과 확인
결론
lspci에서도 안 보이면 하드웨어 문제 (교체 가능성 높음)
5. 서버 재부팅
- last reboot
→ 재부팅 시간, 횟수 확인 - uptime
→ 마지막 부팅 이후 경과 시간 확인 - journalctl -k
→ 커널 로그 확인 (에러, 패닉) - ipmitool sel elist
→ 전원 장애, 온도 상승, 하드웨어 이벤트 확인
결론
power / thermal / kernel panic 원인 구분
6. NVLink 문제
- nvidia-smi nvlink --status
→ GPU 간 NVLink 연결 상태 (UP/DOWN) 확인 - nvidia-smi topo -m
→ GPU 간 연결 구조 및 경로 확인 - dcgmi diag -r 3
→ NVLink 포함 전체 GPU 진단 결과 확인
결론
link down → GPU 간 연결 문제
7. 메모리 부족으로 느림
- top
→ 메모리 사용률, 프로세스 확인 - free -h
→ 전체 메모리, 사용량, swap 사용 여부 확인 - vmstat 1 5
→ si/so (swap in/out), r 값 확인
결론
swap 사용 증가, si/so 발생 → 메모리 부족
8. 디스크 I/O 병목
- iostat -xz 1 3
→ %util, await 확인 - vmstat 1 5
→ wa (I/O 대기) 확인 - df -h
→ 디스크 용량 확인
결론
%util 100%, await 높음, wa 높음 → 디스크 병목
9. GPU는 정상인데 학습이 안 올라감
- nvidia-smi
→ GPU util 확인 - top
→ CPU 상태 확인 - ps -ef | grep python
→ 프로세스 상태 확인
결론
GPU util 0~10% → 코드/데이터 로딩 문제
10. 특정 프로세스가 CPU 100% 점유
- top
→ 문제 프로세스 확인 - ps -fp PID
→ 프로세스 상세 확인 - mpstat -P ALL 1 3
→ 특정 코어 사용률 확인
결론
단일 프로세스 과점유 → 애플리케이션 문제
11. GPU 메모리 부족 (OOM)
- nvidia-smi
→ 메모리 사용량 확인 - nvidia-smi -q
→ 메모리 상태 확인 - dmesg | grep -i oom
→ OOM 발생 여부 확인
결론
GPU 메모리 꽉 참 → batch size 또는 모델 문제
12. 네트워크 문제로 학습 느림
- ping 대상IP
→ 지연 확인 - netstat -i
→ 네트워크 인터페이스 상태 - ss -tuln
→ 포트 상태 확인
결론
지연 높음 / 패킷 문제 → 네트워크 병목
13. 특정 GPU만 성능 낮음
- nvidia-smi
→ GPU util 비교 - nvidia-smi dmon
→ 실시간 성능 비교 - nvidia-smi -q -i GPU번호
→ clocks, throttle 확인
결론
클럭 낮거나 throttle 발생 → GPU 성능 제한
14. 서버는 정상인데 작업만 멈춤
- top
→ 프로세스 상태 확인 - ps -ef
→ 전체 프로세스 확인 - vmstat 1 5
→ r 값 확인
결론
프로세스 대기 상태 → deadlock 또는 I/O 대기
15. GPU ECC 에러 발생
- nvidia-smi
→ ECC error 증가 확인 - nvidia-smi -q | grep -i ecc
→ 상세 ECC 상태 확인 - dcgmi diag -r 3
→ GPU 진단
결론
ECC error 지속 증가 → GPU 불량 가능성
요약
- 느림 → CPU / 메모리 / 디스크 먼저 확인
- GPU util 낮음 → GPU 문제 아님
- GPU 안 잡힘 → lspci로 HW 확인
- 원인 모름 → dmesg 확인
- 재부팅 → ipmitool + journalctl 확인
- swap 사용 → 메모리 부족
- %util 100% → 디스크 병목
- GPU util 낮음 → CPU/데이터 문제
- 특정 GPU만 이상 → HW 문제
- 전체 느림 → 자원 병목 먼저 확인
반응형
LIST
'🔧 Engineering > 📁 Study Notes' 카테고리의 다른 글
| GRUB에 nomodeset 설정 (0) | 2026.05.29 |
|---|---|
| 명령어 옵션 상세 정리 (0) | 2026.04.07 |
| NVIDIA 드라이버 로그 — NVRM XID 에러 (0) | 2026.04.03 |
| NVSwitch 유무에 따른 NVIDIA 패키지 설치 가이드 (0) | 2026.04.03 |
| LVM 생성 및 마운트 가이드 (0) | 2026.04.02 |