DGX H100 / H200 서버에서 장애 분석 또는 벤더 기술 지원 요청 시 BMC Debug Data 수집이 필요한 경우가 있다.
DGX 서버의 BMC는 Redfish API 기반이기 때문에 curl 명령어를 사용하여 CLI 환경에서 디버그 데이터를 수집할 수 있다.
정리하면 전체 흐름은 다음과 같다.
- Diagnostic Data 생성 요청
- Task 진행 상태 확인
- Debug 파일 다운로드
1. Diagnostic Data 생성 요청
먼저 Redfish API를 이용해 BMC Diagnostic Data 수집 작업을 실행한다.
curl -k -u <bmc-user>:<password> \
--request POST \
--location 'https://<bmc-ip-address>/redfish/v1/Managers/BMC/LogServices/DiagnosticLog/Actions/LogService.CollectDiagnosticData' \
-H 'Content-Type: application/json' \
--data-raw '{"DiagnosticDataType":"OEM","OEMDiagnosticDataType":"ALL"}' | jq
설명
| -k | SSL 인증서 검증 생략 |
| -u | BMC 계정 인증 |
| POST | Diagnostic Data 생성 요청 |
| DiagnosticDataType OEM | 제조사(OEM) 진단 데이터 |
| OEMDiagnosticDataType ALL | 전체 진단 데이터 수집 |
| jq | JSON 출력 가독성 개선 |
명령 실행 후 바로 파일이 생성되는 것이 아니라
TaskService에 Diagnostic 작업이 생성된다.
2. Diagnostic Data 생성 진행 상태 확인
Diagnostic Data 생성은 시간이 걸릴 수 있기 때문에 TaskService에서 진행 상태를 확인해야 한다.
curl -k -u <bmc-user>:<password> \
--request GET \
'https://<bmc-ip-address>/redfish/v1/TaskService/Tasks/2' | jq
확인 포인트
응답 JSON에서 다음 항목을 확인한다.

| TaskState | 작업 상태 |
| TaskStatus | 작업 성공 여부 |
| PercentComplete | 작업 진행률 |
예시
PercentComplete 값이 100이면 Diagnostic Data 생성이 완료된 상태이다.
⚠️Task ID (Tasks/2) 는 환경마다 다르기 때문에 생성된 Task 번호를 확인 후 사용해야 한다.
3. Diagnostic Data 다운로드
Diagnostic Data 생성이 완료되면 Attachment 경로에서 tar.gz 파일을 다운로드한다.
curl -k -u <bmc-user>:<password> \
--request GET \
'https://<bmc-ip-address>/redfish/v1/Managers/BMC/LogServices/DiagnosticLog/Attachment/nvidiadiag-HT9buy.tar.gz' \
--output nvidiadiag-HT9buy.tar.gz
설명
| GET | Diagnostic 파일 요청 |
| Attachment | Debug Data 파일 경로 |
| --output | 로컬 파일로 저장 |
다운로드되면 아래와 같은 압축 파일 형태로 저장된다.
nvidiadiag-xxxx.tar.gz
해당 파일에는 다음과 같은 정보들이 포함된다.
- BMC 로그
- System Event Log
- Sensor 정보
- Hardware 상태 정보
- Diagnostic dump
이 파일을 벤더 기술 지원이나 장애 분석 시 전달하면 된다.
전체 절차 정리
DGX H100 / H200에서 BMC Debug Data 추출 절차
1. Diagnostic Data 생성 요청
2. TaskService 진행률 확인
3. Diagnostic Data 다운로드
참고
DGX H100 / H200 BMC는 Redfish API 기반 관리 인터페이스를 제공하기 때문에 CLI 환경에서도 curl을 통해 다양한 관리 작업을 수행할 수 있다.
대표적으로
- BMC 로그 수집
- Hardware 상태 조회
- Task 상태 확인
- Firmware 정보 조회
등을 API 방식으로 확인할 수 있다.
'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글
| Storcli로 하드웨어 RAID와 디스크 연결 상태 확인하기 (0) | 2026.03.10 |
|---|---|
| BCM(Base Command Manager) 사용하여 BMC 정보 확인 및 노드 접속 (0) | 2026.03.10 |
| Supermicro 워크스테이션 서버 설치 정리 (Ubuntu / RAID / 초기 설정) (0) | 2026.03.09 |
| DGX 노드 PXE Boot 실패 사례 (CPU Tray 하드웨어 결함) (0) | 2026.03.09 |
| DGX 노드 CPU Tray 교체 작업 정리 (BCM 환경) (0) | 2026.03.09 |