🔧 Engineering/📁 GPU & Hardware

BMC Debug Data 추출 방법 (Redfish API)

만두개 2026. 3. 10. 10:11
반응형
SMALL

DGX H100 / H200 서버에서 장애 분석 또는 벤더 기술 지원 요청 시 BMC Debug Data 수집이 필요한 경우가 있다.

DGX 서버의 BMC는 Redfish API 기반이기 때문에 curl 명령어를 사용하여 CLI 환경에서 디버그 데이터를 수집할 수 있다.

정리하면 전체 흐름은 다음과 같다.

  1. Diagnostic Data 생성 요청
  2. Task 진행 상태 확인
  3. Debug 파일 다운로드

1. Diagnostic Data 생성 요청

먼저 Redfish API를 이용해 BMC Diagnostic Data 수집 작업을 실행한다.

curl -k -u <bmc-user>:<password> \
--request POST \
--location 'https://<bmc-ip-address>/redfish/v1/Managers/BMC/LogServices/DiagnosticLog/Actions/LogService.CollectDiagnosticData' \
-H 'Content-Type: application/json' \
--data-raw '{"DiagnosticDataType":"OEM","OEMDiagnosticDataType":"ALL"}' | jq
 

설명

옵션의미
-k SSL 인증서 검증 생략
-u BMC 계정 인증
POST Diagnostic Data 생성 요청
DiagnosticDataType OEM 제조사(OEM) 진단 데이터
OEMDiagnosticDataType ALL 전체 진단 데이터 수집
jq JSON 출력 가독성 개선

명령 실행 후 바로 파일이 생성되는 것이 아니라
TaskService에 Diagnostic 작업이 생성된다.


2. Diagnostic Data 생성 진행 상태 확인

Diagnostic Data 생성은 시간이 걸릴 수 있기 때문에 TaskService에서 진행 상태를 확인해야 한다.

curl -k -u <bmc-user>:<password> \
--request GET \
'https://<bmc-ip-address>/redfish/v1/TaskService/Tasks/2' | jq
 

확인 포인트

응답 JSON에서 다음 항목을 확인한다.

항목의미
TaskState 작업 상태
TaskStatus 작업 성공 여부
PercentComplete 작업 진행률

예시

 
"PercentComplete": 100
 

PercentComplete 값이 100이면 Diagnostic Data 생성이 완료된 상태이다.

⚠️Task ID (Tasks/2) 는 환경마다 다르기 때문에 생성된 Task 번호를 확인 후 사용해야 한다.


3. Diagnostic Data 다운로드

Diagnostic Data 생성이 완료되면 Attachment 경로에서 tar.gz 파일을 다운로드한다.

curl -k -u <bmc-user>:<password> \
--request GET \
'https://<bmc-ip-address>/redfish/v1/Managers/BMC/LogServices/DiagnosticLog/Attachment/nvidiadiag-HT9buy.tar.gz' \
--output nvidiadiag-HT9buy.tar.gz
 

설명

옵션의미
GET Diagnostic 파일 요청
Attachment Debug Data 파일 경로
--output 로컬 파일로 저장

다운로드되면 아래와 같은 압축 파일 형태로 저장된다.

nvidiadiag-xxxx.tar.gz
 

해당 파일에는 다음과 같은 정보들이 포함된다.

  • BMC 로그
  • System Event Log
  • Sensor 정보
  • Hardware 상태 정보
  • Diagnostic dump

이 파일을 벤더 기술 지원이나 장애 분석 시 전달하면 된다.


전체 절차 정리

DGX H100 / H200에서 BMC Debug Data 추출 절차

1. Diagnostic Data 생성 요청

CollectDiagnosticData
 

2. TaskService 진행률 확인

PercentComplete 확인
 

3. Diagnostic Data 다운로드

Attachment tar.gz 파일 다운로드
 

참고

DGX H100 / H200 BMC는 Redfish API 기반 관리 인터페이스를 제공하기 때문에 CLI 환경에서도 curl을 통해 다양한 관리 작업을 수행할 수 있다.

대표적으로

  • BMC 로그 수집
  • Hardware 상태 조회
  • Task 상태 확인
  • Firmware 정보 조회

등을 API 방식으로 확인할 수 있다.

반응형
LIST