🔧 Engineering/📁 GPU & Hardware

DGX 노드 CPU Tray 교체 작업 정리 (BCM 환경)

만두개 2026. 3. 9. 23:21
반응형
SMALL

오늘 협력사 측에 DGX H100 CPU Tray 교체 작업을 실습하면서 정리해본 내용입니다.
GPU 서버는 일반 서버와 구조가 조금 다르기 때문에 실제로 열어보고 작업해보는 경험이 제일 도움이 되는 것 같습니다.

CPU 교체라고 해서 단순히 CPU만 교체하는 줄 알았는데, 실제로는 CPU Tray 전체를 교체하는 방식이라 생각보다 옮겨야 하는 부품들이 많아서 정리해보려고합니다. 


마더보드 트레이

DGX 서버 CPU Tray 구조

DGX 서버의 CPU Tray는 CPU만 들어있는 구조가 아니라 여러 하드웨어가 같이 들어있는 모듈 형태입니다.

대략적으로 구성은 다음과 같습니다.

  • Dual x86 CPU
  • DIMM 메모리
  • BMC칩
  • PCIe Riser 카드
  • ConnectX-7 네트워크 카드
  • M.2 Boot 디스크

CPU Tray를 교체할 때는 기존 Tray에 있던 부품들을 새 Tray로 그대로 옮겨주는 작업이 필요합니다.

실제로 열어보면 메모리 슬롯이 굉장히 많습니다.
32개의 DIMM 슬롯이 있고 최대 2TB 메모리 구성이 가능하다고 합니다.


작업 과정

오늘 진행했던 작업 흐름을 간단히 정리하면 다음과 같습니다.

1. 기존 CPU Tray 분리

먼저 노드를 종료한 뒤 기존 CPU Tray를 분리했습니다.

DGX 서버는 CPU Tray가 슬라이드 형태로 빠지는 구조입니다.


2. 메모리(DIMM) 이관

기존 Tray에 장착되어 있던 메모리들을 새 CPU Tray로 옮기는 작업을 진행했습니다.

여기서 중요한 점은 메모리 슬롯 위치를 그대로 유지하는 것입니다.

서버 메모리는 채널 구성이 있기 때문에 위치가 바뀌면 성능이나 인식 문제도 생길 수 있다고 합니다.

그래서 기존 위치를 확인하면서 하나씩 옮겼습니다.


3. PCIe 장치 이관

다음으로 PCIe 장치들도 새 Tray로 이동했습니다.

옮긴 장비는 다음과 같습니다.

  • PCIe Riser 카드
  • ConnectX-7 네트워크 카드
  • M.2 Boot 모듈

DGX 서버에서 ConnectX 네트워크 카드가 꽤 중요한 역할을 하기 때문에 장착 상태도 잘 확인했습니다.


4. CPU Tray 재장착 및 부팅

모든 부품을 이관한 후 새 CPU Tray를 장착하고 노드를 다시 부팅했습니다.

보통 이런 작업 이후에는 다음을 확인한다고 합니다.

  • PCIe 장치 인식 여부
  • 네트워크 인터페이스
  • BMC 통신

간단히 확인할 때는 보통 이런 명령어도 사용합니다.

lspci
ip a
 

작업할 때 알아야할 개념들

PXE Boot (PXE 부팅)

PXE 부팅은 네트워크를 통해 운영체제를 부팅하는 방식입니다.

일반적인 컴퓨터는

디스크 → OS 부팅
 

이 구조지만, PXE 부팅은

네트워크 서버 → OS 다운로드 → 부팅

 

이 방식으로 동작합니다.

PCIe Riser Card (라이저 카드)

라이저 카드는 PCIe 슬롯을 확장해주는 카드입니다.

서버 내부 공간은 제한되어 있기 때문에 메인보드에 바로 장착하는 대신 라이저 카드를 통해 PCIe 장치를 연결하는 구조를 사용합니다.

쉽게 말하면

메인보드 → 라이저 카드 → PCIe 장치

 

이런 구조입니다.

이번 작업에서도 CPU Tray에 있는 PCIe Riser 카드

  • ConnectX-7 네트워크 카드
  • M.2 Boot 모듈

같은 장치들이 연결되어 있었습니다.

그래서 CPU Tray 교체 시 라이저 카드도 같이 이관해야 합니다.

ConnectX-7 (네트워크 카드)

ConnectX-7은 NVIDIA(Mellanox)에서 만든 고속 네트워크 카드입니다.

DGX 서버에서는 이 카드가 중요한 역할을 합니다.

주요 기능

  • GPU 노드 간 통신
  • InfiniBand / Ethernet 네트워크
  • PXE Boot

GPU 클러스터 환경에서는 노드 간 데이터 이동이 많기 때문에 고속 네트워크가 매우 중요합니다.

반응형
LIST