🔧 Engineering/📁 Study Notes

혼자 해보는 점검 실습

만두개 2026. 4. 22. 15:34
반응형
SMALL

1. 전체 서버 느림

  • top
    → CPU 사용률, 어떤 프로세스가 CPU 점유하는지 확인
  • mpstat -P ALL 1 3
    → -P ALL: 모든 CPU 코어 표시
    → 1: 1초 간격 / 3: 3번 출력
    → 각 코어별 사용률, 특정 코어 과부하 여부 확인
  • vmstat 1 5
    → 1초 간격 5번 출력
    → r: CPU 대기 프로세스 수
    → wa: I/O 대기 여부 확인
  • iostat -xz 1 3
    → -x: 디스크 상세 정보
    → -z: 사용 디스크만 표시
    → %util: 디스크 사용률
    → await: 응답 지연 시간 확인

결론
CPU 높고 r 값 높으며 디스크 정상 → CPU 병목


2. GPU 작업 느림

  • nvidia-smi
    → GPU 개수, 사용률(util), 온도, 메모리 사용량 확인
  • nvidia-smi dmon
    → GPU 사용률, 전력, 메모리, 온도 실시간 확인
  • nvidia-smi -q
    → GPU 전체 상세 상태 확인
  • nvidia-smi -q | grep -i clocks
    → GPU 클럭이 낮게 제한되어 있는지 확인
  • nvidia-smi -q | grep -i throttle
    → thermal, power 제한 여부 확인

결론
GPU util 낮음 → GPU 문제 아님 (CPU 또는 환경 문제)


3. GPU 하나 온도 높음

  • nvidia-smi
    → GPU별 온도 확인
  • nvidia-smi dmon
    → 해당 GPU 사용률(util) 확인
  • nvidia-smi -q -i GPU번호
    → 특정 GPU의 온도, 전력, throttle 상태 확인
  • ipmitool sensor
    → 팬 속도, 시스템 온도 센서 확인

결론
util 높으면 정상 / util 낮은데 온도 높으면 팬 또는 HW 문제


4. GPU 안 잡힘

  • nvidia-smi
    → GPU 개수 확인 (누락 여부)
  • lspci | grep -i nvidia
    → PCI 레벨에서 GPU 인식 여부 확인
  • dmesg | grep -i nvidia
    → 드라이버 로딩 실패, GPU 초기화 에러 확인
  • dmesg | grep -i xid
    → GPU 에러 코드(Xid) 확인
  • dcgmi diag -r 3
    → GPU 메모리, PCI, NVLink 등 종합 테스트 결과 확인

결론
lspci에서도 안 보이면 하드웨어 문제 (교체 가능성 높음)


5. 서버 재부팅

  • last reboot
    → 재부팅 시간, 횟수 확인
  • uptime
    → 마지막 부팅 이후 경과 시간 확인
  • journalctl -k
    → 커널 로그 확인 (에러, 패닉)
  • ipmitool sel elist
    → 전원 장애, 온도 상승, 하드웨어 이벤트 확인

결론
power / thermal / kernel panic 원인 구분


6. NVLink 문제

  • nvidia-smi nvlink --status
    → GPU 간 NVLink 연결 상태 (UP/DOWN) 확인
  • nvidia-smi topo -m
    → GPU 간 연결 구조 및 경로 확인
  • dcgmi diag -r 3
    → NVLink 포함 전체 GPU 진단 결과 확인

결론
link down → GPU 간 연결 문제


7. 메모리 부족으로 느림

  • top
    → 메모리 사용률, 프로세스 확인
  • free -h
    → 전체 메모리, 사용량, swap 사용 여부 확인
  • vmstat 1 5
    → si/so (swap in/out), r 값 확인

결론
swap 사용 증가, si/so 발생 → 메모리 부족

 

 


8. 디스크 I/O 병목

  • iostat -xz 1 3
    → %util, await 확인
  • vmstat 1 5
    → wa (I/O 대기) 확인
  • df -h
    → 디스크 용량 확인

결론
%util 100%, await 높음, wa 높음 → 디스크 병목


9. GPU는 정상인데 학습이 안 올라감

  • nvidia-smi
    → GPU util 확인
  • top
    → CPU 상태 확인
  • ps -ef | grep python
    → 프로세스 상태 확인

결론
GPU util 0~10% → 코드/데이터 로딩 문제


10. 특정 프로세스가 CPU 100% 점유

  • top
    → 문제 프로세스 확인
  • ps -fp PID
    → 프로세스 상세 확인
  • mpstat -P ALL 1 3
    → 특정 코어 사용률 확인

결론
단일 프로세스 과점유 → 애플리케이션 문제


11. GPU 메모리 부족 (OOM)

  • nvidia-smi
    → 메모리 사용량 확인
  • nvidia-smi -q
    → 메모리 상태 확인
  • dmesg | grep -i oom
    → OOM 발생 여부 확인

결론
GPU 메모리 꽉 참 → batch size 또는 모델 문제


12. 네트워크 문제로 학습 느림

  • ping 대상IP
    → 지연 확인
  • netstat -i
    → 네트워크 인터페이스 상태
  • ss -tuln
    → 포트 상태 확인

결론
지연 높음 / 패킷 문제 → 네트워크 병목


13. 특정 GPU만 성능 낮음

  • nvidia-smi
    → GPU util 비교
  • nvidia-smi dmon
    → 실시간 성능 비교
  • nvidia-smi -q -i GPU번호
    → clocks, throttle 확인

결론
클럭 낮거나 throttle 발생 → GPU 성능 제한


14. 서버는 정상인데 작업만 멈춤

  • top
    → 프로세스 상태 확인
  • ps -ef
    → 전체 프로세스 확인
  • vmstat 1 5
    → r 값 확인

결론
프로세스 대기 상태 → deadlock 또는 I/O 대기


15. GPU ECC 에러 발생

  • nvidia-smi
    → ECC error 증가 확인
  • nvidia-smi -q | grep -i ecc
    → 상세 ECC 상태 확인
  • dcgmi diag -r 3
    → GPU 진단

결론
ECC error 지속 증가 → GPU 불량 가능성


요약

  • 느림 → CPU / 메모리 / 디스크 먼저 확인
  • GPU util 낮음 → GPU 문제 아님
  • GPU 안 잡힘 → lspci로 HW 확인
  • 원인 모름 → dmesg 확인
  • 재부팅 → ipmitool + journalctl 확인
  • swap 사용 → 메모리 부족
  • %util 100% → 디스크 병목
  • GPU util 낮음 → CPU/데이터 문제
  • 특정 GPU만 이상 → HW 문제
  • 전체 느림 → 자원 병목 먼저 확인
반응형
LIST