반응형
SMALL

이벤트 내용
- Event Name : Link is Down
- Severity : Warning
- Category : Fabric Topology
- Source
- Computer : sp-h-050
- Switch : c-lf-12:19
물리 위치 확인
UFM에서 표시되는 Logical 정보 기준으로 실제 물리 위치를 확인해야 한다.
- Switch : c-lf-12
- Port : 10번 포트
즉, Compute Leaf 12번 스위치의 10번 포트이다.

점검 순서
점검은 항상 아래 순서대로 진행한다.
- MPO 클리닝
- 케이블 교체
- 트랜시버 Reseat (재장착)
- 트랜시버 교체
점검 기준
- MPO 오염이 가장 빈번한 원인이다.
- 케이블은 꺾임이나 내부 손상 가능성이 있다.
- 트랜시버는 접촉 불량 또는 불량일 수 있다.
불필요한 작업을 줄이기 위해 반드시 위 순서를 따른다.
작업 시 주의사항
Leaf ↔ Node 연결
분리하지 않는 것을 원칙으로 한다.
이유
- 노드가 스토리지와 직접 연결되어 있음
- 분리 시 작업이 중단되거나 데이터 I/O가 끊길 수 있음
Leaf ↔ Spine 연결
필요 시 분리 가능하다.
이유
- ECMP 기반 다중 경로 구조로 구성되어 있음
- 트래픽이 다른 경로로 자동 우회됨
정리
Link Down Warning 발생 시 우선 물리 계층 문제를 의심한다.
점검 순서는 MPO 클리닝 → 케이블 교체 → 트랜시버 재장착 → 트랜시버 교체 순으로 진행한다.
Node 연결은 서비스 영향이 크기 때문에 임의로 분리하지 않는다.
반응형
LIST
'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글
| DGX H100 / H200 User Guide 정리 (0) | 2026.03.25 |
|---|---|
| P2C / C2P 방향 (공기 흐름 기준) (0) | 2026.03.24 |
| NVIDIA MIG 정리 (0) | 2026.03.23 |
| GPU 스케줄러 비교: Slurm vs Kubernetes (0) | 2026.03.23 |
| NVIDIA UFM(Unified Fabric Manager) (0) | 2026.03.23 |