PSU가 전부 장애로 확인된 Supermicro B200 서버 PSU 교체 후 정상 동작 여부를 확인하기 위해 FD(Field Diagnostic) Test를 진행했다.
작업 과정과 진행했던 내용을 정리하여 공부해보겠다.

FD Test란?
FD Test는 Field Diagnostic Test의 약자로, 현장에서 하드웨어 상태를 점검하기 위해 사용하는 진단 툴이다.
주로 다음과 같은 상황에서 사용된다.
- 하드웨어 교체 후 정상 동작 확인
- 시스템 장애 원인 확인
- 로그 수집
1. PSU 교체
먼저 서버의 PSU(Power Supply Unit)를 교체한다.
PSU 교체 후에는 서버에서 정상적으로 인식되는지 확인해야 한다.
2. BMC IP 확인
PSU 교체 후 BMC 접속을 위해 BMC IP를 확인한다.
ipmitool lan print 1
3. BMC와 노트북 직접 연결
BMC 포트와 노트북을 LAN 케이블로 직접 연결한다.
이후 노트북의 이더넷 설정을 다음과 같이 맞춰준다.
예시)
BMC IP : 192.168.40.224
노트북 이더넷 설정
IP : 192.168.40.xx
마지막 IPv4는 1~255 사이에서 BMC IP랑 겹치지 않는 값으로 설정한다.
4. 네트워크 연결 확인
CMD에서 ping을 통해 네트워크 연결을 확인한다.
ping 192.168.xx.xx
Ping이 정상적으로 응답하면 BMC와 통신이 가능한 상태이다.
5. BMC 리셋
PSU 교체 후 BMC 상태를 초기화하기 위해 다음 명령어로 BMC Cold Reset을 진행한다.
ipmitool mc reset cold
이후 BMC가 재시작된다.
6. BMC 재부팅 확인
BMC가 다시 올라오는지 확인하기 위해 다음 명령어로 ping을 지속적으로 확인한다.
ping 192.168.xx.xx -t
Ping 응답이 다시 돌아오면 BMC가 정상적으로 올라온 것이다.
7. BMC Web 접속
웹 브라우저에서 BMC에 접속한다.
BMC에 접속한 후 다음 내용을 확인한다.
- PSU 인식 여부
- PSU 상태
- PSU Serial Number
PSU를 교체한 경우 Serial Number가 변경되었는지 확인한다.
8. PSU 교체 전후 비교
PSU 교체 전후 상태를 확인하기 위해 다음 작업을 진행했다.
- PSU 정보 화면 캡쳐
- Serial Number 확인
- 교체 후 상태 캡쳐
이후 교체 전/후 캡쳐 화면을 비교하여 정상적으로 인식되는지 확인했다.
9. FD Test 실행
마지막으로 Field Diagnostic Tool을 실행하여 로그를 수집한다.
실행 명령어
sudo ./partnerdiag --field --run_on_error --no_bmc
옵션 설명
Field 환경에서 사용하는 진단 모드
--run_on_error
에러가 발생해도 테스트 계속 진행
--no_bmc
BMC 관련 테스트 제외
이 명령어를 통해 시스템 진단을 진행하고 로그를 출력한다.
'🔧 Engineering > 📁 GPU & Hardware' 카테고리의 다른 글
| RDMA 테스트 방법 정리 (InfiniBand / perftest) (0) | 2026.03.13 |
|---|---|
| RDMA(Remote Direct Memory Access) (0) | 2026.03.12 |
| NVLink / NVSwitch 정리 (0) | 2026.03.12 |
| PCIe / SXM GPU 정리 (0) | 2026.03.11 |
| M.2 / U.2 (0) | 2026.03.10 |