🔧 Engineering/📁 GPU & Hardware

DGX 노드 PXE Boot 실패 사례 (CPU Tray 하드웨어 결함)

만두개 2026. 3. 9. 23:45
반응형
SMALL

DGX 노드 PXE Boot 실패 사례

오늘 CPU Tray 교체 작업을 진행하면서 PXE Boot 실패 문제가 발생한 사례도 있어서 같이 정리해보려고 합니다.

처음에는 네트워크 문제인가 싶었는데, 결과적으로는 하드웨어 결함으로 확인된 케이스였습니다.


발생한 증상

CPU Tray를 교체하고 부팅을 진행했는데 예상하지 못한 문제가 발생했습니다.

PCIe 장치 미인식

오른쪽 PCIe 슬롯에 연결된 장치들이 인식되지 않았습니다.

영향 장치

  • M.2 Riser
  • ConnectX-7 HCA

ConnectX-7 Red LED 발생

부팅 과정에서 오른쪽 ConnectX-7 카드에서 빨간 LED가 켜지는 현상도 확인되었습니다.

  • PCIe 연결 문제
  • 카드 자체 문제
  • 하드웨어 오류

PXE Boot 실패

보통 오른쪽 HCA 문제가 있어도 왼쪽 ConnectX-7을 통해 PXE Boot로 접근이 가능해야합니다. bcm에서 os image를 가져와서 os를 깔 위치를 정해야하는데 M.2가 아예 잡히지 않아서 PXE boot가 정상적으로 처리되지 않았습니다.


BMC 통신 실패

추가적으로 BMC 접속도 정상적으로 이루어지지 않았습니다.

이로 인해

  • BMC 로그
  • Debug dump

등의 수집이 불가능한 상황이었습니다.


문제 검증

문제 원인을 확인하기 위해 기존 CPU Tray를 다시 장착했습니다.

결과

  • PCIe 장치 정상 인식
  • ConnectX-7 정상 동작
  • PXE Boot 정상
  • BMC 통신 정상

즉 시스템 자체에는 문제가 없었습니다.


결론

검증 결과 교체용 CPU Tray에 하드웨어 결함이 있는 것으로 판단되었습니다.

따라서 문제 해결을 위해 새로운 교체 CPU Tray가 필요하다는 결론을 내렸습니다.

반응형
LIST