-
Supermicro A100 서버 nvidia-smi fail 현상IT Operation 2025. 1. 13. 19:51반응형
Supermicro A100 서버에서 가끔 nvidia-smi 명령이 실패할 때가 있다.
그리고 이때 보면 GPU카드들이 동작하지 않는다.
nvidia-smi 명령어를 입력하면 NVIDIA-SMI has failed because it couldn't communicate with NVIDIA driver라는 에러를 발생시키고 최신 NVIDIA 드라이버가 설치되어 있는지, 실행 중이지 확인하라고 나타난다. 처음부터 실행이 안된 게 아니라 쓰다가 어느날 보면 이 메시지가 나타나서 GPU가 인식 불량이 되는 현상이다.
우분투 22.04 LTS에서 nvidia-smi failed 현상 이 상태에서 lspci | grep VGA 명령어를 입력해도 아무것도 보이지 않는다.
lspci ❘ grep VGA 명령어 입력 결과 다른 GPU 서버에서는 연결된 VGA 목록이 모두 나타남을 알 수 있었다.
다른 GPU서버에서 lspci ❘ grep VGA 명령어를 입력한 결과 결과적으로 lscpi 명령어(시스템 상에 연결된 모든 PCI 장치 정보를 확인)를 입력했을때 GPU는 연결되지 않은 상태로 인식하는 것으로 보이고 nvidia-smi 명령 시에도 NVIDIA 드라이버가 설치되어 있지 않은 상태로 인식하고 있다는 것이다. 잘 쓰고 있다가 도대체 왜 그런 것인지 알 수가 없다. 어떤 상황에서 발생하는 건지 아직도 알 수없다.
로그에서 오류가 있는지 확인해 보니 GPU has fallen off the bus라는 기록이 남아있다. GPU는 PCIe 상에서 인식이 불가해진 상태를 의미하는 것이 아닐까 하는 추측이다. GPU가 그냥 인식이 불가해 지는데 한두 개도 아니고 전부 다 안된다. 시스템 문제 같다.
cat /var/log/messages에서 확인한 GPU 오류 로그들 이 문제는 재부팅을 하면 해결된다.
왜 인지 모르겠지만, 러닝을 하다가 무슨 동작 간에 충돌이 있거나 한 것으로 보이는데, 원인을 알 수 없다. 이 증상이 나타나면 팬이 아주 굉음을 내면서 돌고 있는데, 계속적인 충돌 현상이 발생하는 거 같다. 그래서 문제가 생기면 재부팅을 진행하고 있다. 유지보수를 업체와도 계속 문제에 대해 확인하고 있지만 아직 문제는 해결되지 않았다. 이 문제에 대해 좀 서치 해 본 결과에 의하면 다음과 같은 내용에 연관이 있다고 판단했다.
- 드라이버 오류
- OS 시스템 손상
- 버스 오류
- 전력 부족 또는 ASPM 설정에 의한 응답 불량
- GPU 재장착
드라이버 오류나 OS 시스템 손상은 아닐 가능성이 높다.
이 두 가지는 OS를 재설치했고 드라이버도 버전을 변경해도 계속 생겼다.
버스 오류의 경우 정확히 언제 생기는지 알 수 없다.
잘 쓸 때는 계속 잘 쓰다가 갑자기 문제가 생기기 때문이다.
전력 부족과 GPU 재장착이 가장 가능성이 높다.
A100 서버의 경우 전력 사용량이 상당히 높은 편이다.
서버실에 다른 GPU에 비해 전력 소모량이 높다.
GPU를 PCIe 슬롯에서 제거하고 다시 조립했을 때 정상이었다는 의견도 보았다.
이건 어렵지 않으니 다시 해볼 수 있을 거 같다.
단, NVIDIA DGX H100과 H200의 경우 nvidia-smi 명령에 실패하고 GPU 연결이 bus에서 사라지는 것에 대한 업데이트가 존재함을 확인했다.
참조 링크 : https://bbs.archlinux.org/viewtopic.php?id=276539
[solved]My GPU has fallen off the bus ramdomly / Newbie Corner / Arch Linux Forums
When I use it normally, the screen suddenly gets stuck, the mouse is active, the keyboard is unresponsive, and the tty switch is unresponsive Kernel: 5.17.9-zen1-1-zen Packages: 1408 (pacman) Shell: fish 3.4.1 Resolution: 1920x1080 WM: i3 CPU: AMD Ryzen 7
bbs.archlinux.org
참조 링크 : https://bbs.archlinux.org/viewtopic.php?id=290156
NVIDIA GPU Suddenly "fell off the bus" (SOLVED) / Kernel & Hardware / Arch Linux Forums
I did some extensive research and found out that it was a thermal issue as the GPU got upto around 100 degrees at full load. I repasted my GPU and now it's maintaining a temperature of 80 - 85 degrees. The problem is now solved and hasn't occurred in about
bbs.archlinux.org
NVIDIA H100 H200 GPU fallen off the bus issue : https://docs.nvidia.com/dgx/dgxh100-fw-update-guide/known-issues.html
Known Issues — NVIDIA DGX H100/H200 Firmware Update Guide
Issue During the process of the ConnectX-7 firmware update, upon completion of applying the update, a reboot is required as suggested by these messages: To load new FW, run mlxfwreset or reboot machine. and Please reboot machine to load new configurations.
docs.nvidia.com
반응형'IT Operation' 카테고리의 다른 글
윈도우에서 프로그램을 항상 관리자 권한으로 실행하도록 설정하는 방법 (0) 2025.01.15 MSI PRO Z690-A 메인보드 DRAM 램프 점등시 해결 방법 (0) 2025.01.14 Ubuntu 전원 종료 명령어 및 옵션 (0) 2025.01.13 윈도우10 프로에서 윈도우11 무료 업데이트 진행하면 윈도우11 프로로 업데이트 될까? (0) 2025.01.12 구글 워크스페이스 삭제 계정 복구 방법 (0) 2025.01.09