🔧 Engineering/📁 GPU & Hardware

UFM Warning Event 발생 시 물리 점검 (Link Down)

만두개 2026. 3. 24. 10:06
반응형
SMALL

이벤트 내용

  • Event Name : Link is Down
  • Severity : Warning
  • Category : Fabric Topology
  • Source
    • Computer : sp-h-050
    • Switch : c-lf-12:19

물리 위치 확인

UFM에서 표시되는 Logical 정보 기준으로 실제 물리 위치를 확인해야 한다.

  • Switch : c-lf-12
  • Port : 10번 포트

즉, Compute Leaf 12번 스위치의 10번 포트이다.


클리닝 도구

점검 순서

점검은 항상 아래 순서대로 진행한다.

  1. MPO 클리닝
  2. 케이블 교체
  3. 트랜시버 Reseat (재장착)
  4. 트랜시버 교체

점검 기준

  • MPO 오염이 가장 빈번한 원인이다.
  • 케이블은 꺾임이나 내부 손상 가능성이 있다.
  • 트랜시버는 접촉 불량 또는 불량일 수 있다.

불필요한 작업을 줄이기 위해 반드시 위 순서를 따른다.


작업 시 주의사항

Leaf ↔ Node 연결

분리하지 않는 것을 원칙으로 한다.

이유

  • 노드가 스토리지와 직접 연결되어 있음
  • 분리 시 작업이 중단되거나 데이터 I/O가 끊길 수 있음

Leaf ↔ Spine 연결

필요 시 분리 가능하다.

이유

  • ECMP 기반 다중 경로 구조로 구성되어 있음
  • 트래픽이 다른 경로로 자동 우회됨

정리

Link Down Warning 발생 시 우선 물리 계층 문제를 의심한다.

점검 순서는 MPO 클리닝 → 케이블 교체 → 트랜시버 재장착 → 트랜시버 교체 순으로 진행한다.

Node 연결은 서비스 영향이 크기 때문에 임의로 분리하지 않는다.

반응형
LIST