🔧 Engineering/📁 Study Notes

혼자 해보는 점검 실습

만두개 2026. 4. 22. 15:34

SMALL

1. 전체 서버 느림

top
→ CPU 사용률, 어떤 프로세스가 CPU 점유하는지 확인
mpstat -P ALL 1 3
→ -P ALL: 모든 CPU 코어 표시
→ 1: 1초 간격 / 3: 3번 출력
→ 각 코어별 사용률, 특정 코어 과부하 여부 확인
vmstat 1 5
→ 1초 간격 5번 출력
→ r: CPU 대기 프로세스 수
→ wa: I/O 대기 여부 확인
iostat -xz 1 3
→ -x: 디스크 상세 정보
→ -z: 사용 디스크만 표시
→ %util: 디스크 사용률
→ await: 응답 지연 시간 확인

결론
CPU 높고 r 값 높으며 디스크 정상 → CPU 병목

2. GPU 작업 느림

nvidia-smi
→ GPU 개수, 사용률(util), 온도, 메모리 사용량 확인
nvidia-smi dmon
→ GPU 사용률, 전력, 메모리, 온도 실시간 확인
nvidia-smi -q
→ GPU 전체 상세 상태 확인
nvidia-smi -q | grep -i clocks
→ GPU 클럭이 낮게 제한되어 있는지 확인
nvidia-smi -q | grep -i throttle
→ thermal, power 제한 여부 확인

결론
GPU util 낮음 → GPU 문제 아님 (CPU 또는 환경 문제)

3. GPU 하나 온도 높음

nvidia-smi
→ GPU별 온도 확인
nvidia-smi dmon
→ 해당 GPU 사용률(util) 확인
nvidia-smi -q -i GPU번호
→ 특정 GPU의 온도, 전력, throttle 상태 확인
ipmitool sensor
→ 팬 속도, 시스템 온도 센서 확인

결론
util 높으면 정상 / util 낮은데 온도 높으면 팬 또는 HW 문제

4. GPU 안 잡힘

nvidia-smi
→ GPU 개수 확인 (누락 여부)
lspci | grep -i nvidia
→ PCI 레벨에서 GPU 인식 여부 확인
dmesg | grep -i nvidia
→ 드라이버 로딩 실패, GPU 초기화 에러 확인
dmesg | grep -i xid
→ GPU 에러 코드(Xid) 확인
dcgmi diag -r 3
→ GPU 메모리, PCI, NVLink 등 종합 테스트 결과 확인

결론
lspci에서도 안 보이면 하드웨어 문제 (교체 가능성 높음)

5. 서버 재부팅

last reboot
→ 재부팅 시간, 횟수 확인
uptime
→ 마지막 부팅 이후 경과 시간 확인
journalctl -k
→ 커널 로그 확인 (에러, 패닉)
ipmitool sel elist
→ 전원 장애, 온도 상승, 하드웨어 이벤트 확인

결론
power / thermal / kernel panic 원인 구분

6. NVLink 문제

nvidia-smi nvlink --status
→ GPU 간 NVLink 연결 상태 (UP/DOWN) 확인
nvidia-smi topo -m
→ GPU 간 연결 구조 및 경로 확인
dcgmi diag -r 3
→ NVLink 포함 전체 GPU 진단 결과 확인

결론
link down → GPU 간 연결 문제

7. 메모리 부족으로 느림

top
→ 메모리 사용률, 프로세스 확인
free -h
→ 전체 메모리, 사용량, swap 사용 여부 확인
vmstat 1 5
→ si/so (swap in/out), r 값 확인

결론
swap 사용 증가, si/so 발생 → 메모리 부족

8. 디스크 I/O 병목

iostat -xz 1 3
→ %util, await 확인
vmstat 1 5
→ wa (I/O 대기) 확인
df -h
→ 디스크 용량 확인

결론
%util 100%, await 높음, wa 높음 → 디스크 병목

9. GPU는 정상인데 학습이 안 올라감

nvidia-smi
→ GPU util 확인
top
→ CPU 상태 확인
ps -ef | grep python
→ 프로세스 상태 확인

결론
GPU util 0~10% → 코드/데이터 로딩 문제

10. 특정 프로세스가 CPU 100% 점유

top
→ 문제 프로세스 확인
ps -fp PID
→ 프로세스 상세 확인
mpstat -P ALL 1 3
→ 특정 코어 사용률 확인

결론
단일 프로세스 과점유 → 애플리케이션 문제

11. GPU 메모리 부족 (OOM)

nvidia-smi
→ 메모리 사용량 확인
nvidia-smi -q
→ 메모리 상태 확인
dmesg | grep -i oom
→ OOM 발생 여부 확인

결론
GPU 메모리 꽉 참 → batch size 또는 모델 문제

12. 네트워크 문제로 학습 느림

ping 대상IP
→ 지연 확인
netstat -i
→ 네트워크 인터페이스 상태
ss -tuln
→ 포트 상태 확인

결론
지연 높음 / 패킷 문제 → 네트워크 병목

13. 특정 GPU만 성능 낮음

nvidia-smi
→ GPU util 비교
nvidia-smi dmon
→ 실시간 성능 비교
nvidia-smi -q -i GPU번호
→ clocks, throttle 확인

결론
클럭 낮거나 throttle 발생 → GPU 성능 제한

14. 서버는 정상인데 작업만 멈춤

top
→ 프로세스 상태 확인
ps -ef
→ 전체 프로세스 확인
vmstat 1 5
→ r 값 확인

결론
프로세스 대기 상태 → deadlock 또는 I/O 대기

15. GPU ECC 에러 발생

nvidia-smi
→ ECC error 증가 확인
nvidia-smi -q | grep -i ecc
→ 상세 ECC 상태 확인
dcgmi diag -r 3
→ GPU 진단

결론
ECC error 지속 증가 → GPU 불량 가능성

요약

느림 → CPU / 메모리 / 디스크 먼저 확인
GPU util 낮음 → GPU 문제 아님
GPU 안 잡힘 → lspci로 HW 확인
원인 모름 → dmesg 확인
재부팅 → ipmitool + journalctl 확인
swap 사용 → 메모리 부족
%util 100% → 디스크 병목
GPU util 낮음 → CPU/데이터 문제
특정 GPU만 이상 → HW 문제
전체 느림 → 자원 병목 먼저 확인

LIST

'🔧 Engineering > 📁 Study Notes' 카테고리의 다른 글

GRUB에 nomodeset 설정 (0)	2026.05.29
명령어 옵션 상세 정리 (0)	2026.04.07
NVIDIA 드라이버 로그 — NVRM XID 에러 (0)	2026.04.03
NVSwitch 유무에 따른 NVIDIA 패키지 설치 가이드 (0)	2026.04.03
LVM 생성 및 마운트 가이드 (0)	2026.04.02

현재글혼자 해보는 점검 실습

Always On

GPU, 네트워크, 리눅스, BMC 등 인프라 전반을 공부하며 트러블슈팅과 운영 경험을 정리합니다.

GPU서버, 서버, 서버설치, DGX, nvidia-smi, GPU, 리눅스, ai서버, 네트워크, infiniband, SuperMicro, BMC, Linux, H100, Nvidia, 서버관리, H200, 네트워크기초, TCPIP, 인프라엔지니어,

Today :
Yesterday :

Always On

혼자 해보는 점검 실습

1. 전체 서버 느림

2. GPU 작업 느림

3. GPU 하나 온도 높음

4. GPU 안 잡힘

5. 서버 재부팅

6. NVLink 문제

7. 메모리 부족으로 느림

8. 디스크 I/O 병목

9. GPU는 정상인데 학습이 안 올라감

10. 특정 프로세스가 CPU 100% 점유

11. GPU 메모리 부족 (OOM)

12. 네트워크 문제로 학습 느림

13. 특정 GPU만 성능 낮음

14. 서버는 정상인데 작업만 멈춤

15. GPU ECC 에러 발생

요약

'🔧 Engineering > 📁 Study Notes' 카테고리의 다른 글

'🔧 Engineering/📁 Study Notes'의 다른글

티스토리툴바

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

혼자 해보는 점검 실습

1. 전체 서버 느림

2. GPU 작업 느림

3. GPU 하나 온도 높음

4. GPU 안 잡힘

5. 서버 재부팅

6. NVLink 문제

7. 메모리 부족으로 느림

8. 디스크 I/O 병목

9. GPU는 정상인데 학습이 안 올라감

10. 특정 프로세스가 CPU 100% 점유

11. GPU 메모리 부족 (OOM)

12. 네트워크 문제로 학습 느림

13. 특정 GPU만 성능 낮음

14. 서버는 정상인데 작업만 멈춤

15. GPU ECC 에러 발생

요약

'🔧 Engineering > 📁 Study Notes' 카테고리의 다른 글

'🔧 Engineering/📁 Study Notes'의 다른글

관련글

티스토리툴바