반응형
SMALL
한 줄 요약
NVSwitch 없음 = 드라이버
NVSwitch 있음 = 드라이버 + fabricmanager + dcgm + nscq
내 서버 NVSwitch 있는지 확인
lspci | grep -i nvswitch
# 또는
nvidia-smi nvlink --status
NVSwitch 없는 서버 (A100 PCIe, RTX 등)
sudo apt install \
nvidia-driver-565-server \
datacenter-gpu-manager \
-y
systemctl enable nvidia-dcgm
systemctl start nvidia-dcgm
NVSwitch 있는 서버 (DGX H100, HGX H100 등)
sudo apt install \
nvidia-driver-565-server \
nvidia-fabricmanager-565 \
libnvidia-nscq-565 \
datacenter-gpu-manager \
-y
# 서비스 시작 순서 중요 (fabricmanager 먼저)
systemctl enable nvidia-fabricmanager
systemctl start nvidia-fabricmanager
systemctl enable nvidia-dcgm
systemctl start nvidia-dcgm
# 상태 확인
systemctl status nvidia-fabricmanager
systemctl status nvidia-dcgm
패키지별 역할
| 패키지 | 역할 | NVSwitch 없음 | NVSwitch 있음 |
| nvidia-driver-xxx | GPU 드라이버 | 필수 | 필수 |
| libnvidia-nscq-xxx | NVSwitch 토폴로지 라이브러리 | 불필요 | 필수 |
| datacenter-gpu-manager | GPU 진단/모니터링 | 필수 | 필수 |
| nvidia-fabricmanager-xxx | NVSwitch 관리 데몬 | 불필요 | 필수 |
fabricmanager 왜 필요한가
NVSwitch = GPU 간 NVLink 연결을 중재하는 스위치 칩
fabricmanager = NVSwitch를 관리하는 데몬
libnvidia-nscq = NVSwitch 토폴로지 정보를 제공하는 라이브러리
fabricmanager 없으면:
- GPU 인식은 됨
- NVLink 통신 불가
- GPU 간 통신이 필요한 학습 성능 대폭 저하
- nvidia-smi 에서 NVLink 관련 에러 발생
드라이버 버전 확인
# 설치 가능한 드라이버 버전 확인
apt-cache search nvidia-driver | grep server
# fabricmanager 버전 확인
apt-cache search nvidia-fabricmanager
# nscq 버전 확인
apt-cache search libnvidia-nscq
⚠ 드라이버 버전과 fabricmanager 버전은 반드시 일치해야 한다.
예) nvidia-driver-565-server ↔ nvidia-fabricmanager-565
주의사항
| 버전 일치 | 드라이버와 fabricmanager, nscq 버전 반드시 동일하게 |
| DGX 환경 | '*nvidia*' purge 금지 — DGX 전용 커널 패키지 같이 삭제됨 |
| 드라이버 삭제 시 | 버전 명시해서 삭제 후 apt autoremove --purge 로 정리 |
반응형
LIST
'🔧 Engineering > 📁 Study Notes' 카테고리의 다른 글
| 명령어 옵션 상세 정리 (0) | 2026.04.07 |
|---|---|
| NVIDIA 드라이버 로그 — NVRM XID 에러 (0) | 2026.04.03 |
| LVM 생성 및 마운트 가이드 (0) | 2026.04.02 |
| BCM 노드 재설치 — autoinstall auto → full 변경 가이드 (0) | 2026.04.01 |
| SW RAID0 → RAID5 변경 가이드 (0) | 2026.04.01 |