반응형
SMALL

BMC 9

Dell iDRAC / HP iLO 계정 초기화 및 비밀번호 재설정 방법

Dell이나 HP 서버는 자체 원격 관리 인터페이스(Dell: iDRAC, HP: iLO)를 가지고 있다. 처음 납품 시 기본 계정 정보가 설정되어 있고, 웹 GUI나 BIOS에서 계정을 관리하고 비밀번호를 초기화할 수 있다.참고: Dell/HP처럼 자체 BMC 인터페이스가 있는 서버에서는 ipmitool을 통한 비밀번호 재설정이 통하지 않을 수 있다. DGX 서버 설치 중 계정/비밀번호를 잘못 설정했을 때 초기화하는 방법외근을 나가서 DGX 서버를 처음 설치하고 IP 설정까지 진행하는 과정에서, 실수로 계정 이름이나 비밀번호를 잘못 입력해서 로그인이 안 되는 경우를 만들었다.예를 들어 아이디를 nvidia1, 비밀번mandoog.tistory.comDell iDRAC기본 계정 정보Usernameroot..

DGX 서버 설치 중 계정/비밀번호를 잘못 설정했을 때 초기화하는 방법

외근을 나가서 DGX 서버를 처음 설치하고 IP 설정까지 진행하는 과정에서, 실수로 계정 이름이나 비밀번호를 잘못 입력해서 로그인이 안 되는 경우를 만들었다.예를 들어 아이디를 nvidia1, 비밀번호를 nvidia1로 설정하려고 했는데 오타가 나거나 비밀번호 확인 단계에서 다르게 입력해버리면 첫 부팅 직후부터 로그인 자체가 불가능해진다.이 글에서는 이런 상황에서 계정을 초기화하고 다시 설정하는 방법을 정리했다.상황 정리DGX 서버(B200, H100, H200 등)는 첫 부팅 시 First Boot Wizard를 통해 아래 항목을 설정한다.언어, 로케일, 타임존관리자 계정(username + password)BMC 관리자 비밀번호GRUB 부트로더 비밀번호기본 네트워크 인터페이스이 과정에서 계정 정보를 ..

DGX 설치(물리+초기설정)

1. 마운트 및 케이블 연결▪︎ 랙마운트레일 설치 후 서버 장착무게가 크기 때문에 2인 이상 작업U 위치 및 공간 확보 확인▪︎ 전원 케이블 연결PSU 다중 구성 → PDU 분산 연결A/B 전원 이중화 고려▪︎ 네트워크 케이블 연결BMC 포트 (1G, RJ45커넥터)OS 관리 포트 (10G, RJ45 커넥터)※ 케이블 준비1G × 4 (BMC)10G × 4 (OS / Remote) - CAT7 네트워크 결선→ 기본 2개 + 장애 대비 여유2. 부팅 및 BIOS 진입▪︎ 진입 방법전원 ONDEL 키 입력BIOS Setup 진입3. BIOS → BMC 설정▪︎ 경로BIOS → BMC Configuration→ Network Configuration▪︎ 설정DHCP → DisableStatic IP 설정예시B..

pdsh (Parallel Distributed Shell 정리)

HPC 환경이나 대규모 서버 클러스터를 운영하다 보면 여러 노드에 동일한 명령을 실행해야 하는 상황이 자주 발생한다.이럴 때 한 대씩 SSH 접속해서 명령을 실행하면 시간이 많이 걸린다.이 문제를 해결하기 위해 사용하는 도구가 pdsh (Parallel Distributed Shell) 이다.pdsh란?pdsh (Parallel Distributed Shell) 는 여러 서버에 동시에 명령을 실행할 수 있는 병렬 쉘 도구이다.즉, 하나의 명령어를 여러 노드에 동시에 실행할 수 있다.주로 다음과 같은 환경에서 많이 사용된다.HPC 클러스터GPU 서버 클러스터DGX / HGX 서버 환경대규모 서버 관리 환경예)Head Node │ ├── node01 ├── node02 ├── node03 ├── node04..

Supermicro B200 PSU 교체 + fd test

PSU가 전부 장애로 확인된 Supermicro B200 서버 PSU 교체 후 정상 동작 여부를 확인하기 위해 FD(Field Diagnostic) Test를 진행했다.작업 과정과 진행했던 내용을 정리하여 공부해보겠다.FD Test란?FD Test는 Field Diagnostic Test의 약자로, 현장에서 하드웨어 상태를 점검하기 위해 사용하는 진단 툴이다.주로 다음과 같은 상황에서 사용된다.하드웨어 교체 후 정상 동작 확인시스템 장애 원인 확인로그 수집1. PSU 교체먼저 서버의 PSU(Power Supply Unit)를 교체한다.PSU 교체 후에는 서버에서 정상적으로 인식되는지 확인해야 한다.2. BMC IP 확인PSU 교체 후 BMC 접속을 위해 BMC IP를 확인한다.ipmitool lan pr..

BCM(Base Command Manager) 사용하여 BMC 정보 확인 및 노드 접속

DGX 클러스터 환경에서는 Base Command Manager(BCM) 를 사용하여 클러스터 노드 관리, BMC 설정 조회, 노드 접속 등을 수행할 수 있다.특히 DGX 노드의 BMC 정보(IP, 계정 등) 를 확인할 때 BCM CLI를 사용하면 편하다.이번 글에서는 실제 접속 과정을 기준으로 정리한다.1. Head Node 접속먼저 클러스터 관리 노드(Head Node)에 SSH로 접속한다.ssh root@ 예시ssh root@218.52.xx.xxx 접속하면 Bright Cluster Manager 환경이 로드된다.예시Welcome to Base Command Manager 10.0Cluster Manager ID: #00000Node Status: running in active master mo..

BMC Debug Data 추출 방법 (Redfish API)

DGX H100 / H200 서버에서 장애 분석 또는 벤더 기술 지원 요청 시 BMC Debug Data 수집이 필요한 경우가 있다.DGX 서버의 BMC는 Redfish API 기반이기 때문에 curl 명령어를 사용하여 CLI 환경에서 디버그 데이터를 수집할 수 있다.정리하면 전체 흐름은 다음과 같다.Diagnostic Data 생성 요청Task 진행 상태 확인Debug 파일 다운로드1. Diagnostic Data 생성 요청먼저 Redfish API를 이용해 BMC Diagnostic Data 수집 작업을 실행한다.curl -k -u : \--request POST \--location 'https:///redfish/v1/Managers/BMC/LogServices/DiagnosticLog/Actio..

DGX H100 / H200 펌웨어 업데이트 정리

참고: NVIDIA DGX H100 Firmware Update Guide 기준https://docs.nvidia.com/dgx/dgxh100-fw-update-guide/ DGX H100/H200 Firmware Update Guide — NVIDIA DGX H100/H200 Firmware Update Guide docs.nvidia.com 0. 사전 준비 BMC IP / 계정 확인대상 노드 workload 종료패키지 파일 준비nvfw_DGX_250629.1.0.fwpkgnvfw_DGX-HGX-H100-H200x8_0014_250724.1.0.fwpkg 1. 현재 버전 확인 (사전 비교)nvfwupd --target ip= user= password= \show_version -p nvfw_DGX_2..

BMC란 무엇인가

— 서버 외부 관리 인터페이스 기본 정리1. BMC 개요BMC(Baseboard Management Controller)는 서버 메인보드에 내장된 독립적인 관리 컨트롤러다.운영체제(OS)와 별도로 동작하며, 서버 전원 및 하드웨어 상태를 원격으로 관리할 수 있다.OS가 내려간 상태에서도 접근 가능하다는 점이 가장 큰 특징이다.2. 왜 필요한가일반적인 SSH 접속은 OS가 정상 동작해야 가능하다.하지만 다음과 같은 상황에서는 SSH가 불가능하다.커널 패닉OS 부팅 실패네트워크 설정 오류시스템 다운이때 BMC를 통해:전원 제어콘솔 접속하드웨어 상태 확인이벤트 로그 확인이 가능하다.3. BMC에서 가능한 주요 기능1) 전원 제어Power OnPower OffPower CycleResetOS와 무관하게 수행 가..

반응형
LIST