🔧 Engineering/📁 Study Notes

NVSwitch 유무에 따른 NVIDIA 패키지 설치 가이드

만두개 2026. 4. 3. 10:59
반응형
SMALL

한 줄 요약

NVSwitch 없음 = 드라이버 
NVSwitch 있음 = 드라이버 + fabricmanager + dcgm + nscq


내 서버 NVSwitch 있는지 확인

lspci | grep -i nvswitch

# 또는
nvidia-smi nvlink --status

NVSwitch 없는 서버 (A100 PCIe, RTX 등)

sudo apt install \
  nvidia-driver-565-server \
  datacenter-gpu-manager \
  -y

systemctl enable nvidia-dcgm
systemctl start nvidia-dcgm

NVSwitch 있는 서버 (DGX H100, HGX H100 등)

sudo apt install \
  nvidia-driver-565-server \
  nvidia-fabricmanager-565 \
  libnvidia-nscq-565 \
  datacenter-gpu-manager \
  -y

# 서비스 시작 순서 중요 (fabricmanager 먼저)
systemctl enable nvidia-fabricmanager
systemctl start nvidia-fabricmanager

systemctl enable nvidia-dcgm
systemctl start nvidia-dcgm

# 상태 확인
systemctl status nvidia-fabricmanager
systemctl status nvidia-dcgm

패키지별 역할

패키지  역할 NVSwitch 없음 NVSwitch 있음
nvidia-driver-xxx GPU 드라이버 필수 필수
libnvidia-nscq-xxx NVSwitch 토폴로지 라이브러리 불필요 필수
datacenter-gpu-manager GPU 진단/모니터링 필수 필수
nvidia-fabricmanager-xxx NVSwitch 관리 데몬 불필요 필수

fabricmanager 왜 필요한가

NVSwitch      = GPU 간 NVLink 연결을 중재하는 스위치 칩
fabricmanager = NVSwitch를 관리하는 데몬
libnvidia-nscq = NVSwitch 토폴로지 정보를 제공하는 라이브러리

fabricmanager 없으면:

  • GPU 인식은 됨
  • NVLink 통신 불가
  • GPU 간 통신이 필요한 학습 성능 대폭 저하
  • nvidia-smi 에서 NVLink 관련 에러 발생

드라이버 버전 확인

# 설치 가능한 드라이버 버전 확인
apt-cache search nvidia-driver | grep server

# fabricmanager 버전 확인
apt-cache search nvidia-fabricmanager

# nscq 버전 확인
apt-cache search libnvidia-nscq

⚠ 드라이버 버전과 fabricmanager 버전은 반드시 일치해야 한다.
예) nvidia-driver-565-server ↔ nvidia-fabricmanager-565


주의사항

버전 일치 드라이버와 fabricmanager, nscq 버전 반드시 동일하게
DGX 환경 '*nvidia*' purge 금지 — DGX 전용 커널 패키지 같이 삭제됨
드라이버 삭제 시 버전 명시해서 삭제 후 apt autoremove --purge 로 정리
반응형
LIST