서버 문제를 계층으로 나눠서 보는 법

🔧 Engineering/📁 Study Notes

서버 문제를 계층으로 나눠서 보는 법

만두개 2026. 3. 3. 11:28

SMALL

1. 서버 문제가 생겼을 때 막히는 이유?

서버에 문제가 생기면 이런 느낌이었다.

느리다
접속이 안 된다
GPU가 이상하다
알람이 떴다

근데 어디부터 봐야 할지 모르겠어서 정리해보려고 한다.

문제를 해결하기 전에, 먼저 문제를 “어디에 속하는지” 분류해야 한다는 것.

2. 서버 문제는 크게 4가지 영역으로 나눌 수 있다

나는 앞으로 이렇게 나누기로 했다.

① 리소스 (CPU / Memory / Disk Usage)

서버가 “느릴 때” 가장 먼저 보는 영역.

확인 명령어:

top
htop
free -h
df -h
ps aux --sort=%cpu | head

여기서 보는 것:

CPU 100%?
메모리 부족?
디스크 꽉 찼나?
특정 프로세스가 다 잡아먹고 있나?

② 스토리지

RAID 문제, 디스크 장애, I/O 이슈 등.

lsblk
cat /proc/mdstat
iostat
dmesg

디스크가 살아 있는지,
재구성 중인지,
I/O 에러가 있는지 확인.

③ 네트워크

접속 안 될 때는 감정적으로 SSH부터 다시 치지 말고
계층적으로 봐야 한다.

L1: 케이블 물리 연결
L2: NIC up/down
L3: IP 설정
L4: 포트 열려있는지
DNS: 이름 해석 문제

명령어:

ip a
ip route
ping
ss -tulnp
ethtool

④ GPU 영역

GPU 서버라면 이 영역은 따로 본다.

nvidia-smi
nvidia-smi -q
nvidia-smi dmon
dmesg | grep -i xid

GPU 인식 되는지
온도 이상 없는지
XID 에러 있는지
NVLink 상태 정상인지

3. 중요한 건 “순서”다

예전에는 이랬다.

GPU 문제인가? → 네트워크인가? → 로그 보다가 멘붕

앞으로는 이렇게 하려고 한다.

1. 리소스
2. 스토리지
3. 네트워크
4. GPU

위에서 아래로 내려간다.

왜냐하면
리소스 문제인데 GPU부터 보면 시간만 낭비하기 때문이다.

LIST

'🔧 Engineering > 📁 Study Notes' 카테고리의 다른 글

LVM 생성 및 마운트 가이드 (0)	2026.04.02
BCM 노드 재설치 — autoinstall auto → full 변경 가이드 (0)	2026.04.01
SW RAID0 → RAID5 변경 가이드 (0)	2026.04.01
NVIDIA AI 정리 (NeMo / Nemotron / NIM / Agentic AI / Token) (0)	2026.03.24
신입 인프라 엔지니어의 공부 로그 (0)	2026.03.03

현재글서버 문제를 계층으로 나눠서 보는 법

Always On

GPU, 네트워크, 리눅스, BMC 등 인프라 전반을 공부하며 트러블슈팅과 운영 경험을 정리합니다.

서버, infiniband, Linux, 네트워크기초, GPU서버, 리눅스, 서버관리, GPU, nvidia-smi, TCPIP, H100, H200, 인프라엔지니어, ai서버, 서버설치, SuperMicro, BMC, DGX, Nvidia, 네트워크,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Always On