-
Unable to determine the device handle for GPU is lost. Reboot the system to recover this GPU 원인 및 해결 방법IT Operation 2022. 6. 5. 16:49반응형
머신러닝을 위해 사용하는 GPU 서버가 몇 대 있는데, Unable to determine the device handle for GPU is lost. Reboot the system to recover this GPU라는 에러가 자꾸 발생한다는 것이다. 문제가 발생할 때마다 유지보수를 받고 있는 엔지니어에게 A/S 요청을 통해 문제를 해결했는데, 그동안 이 문제가 나타났을 때 취한 조치를 나열해본다.
Unable to determine the device handle for GPU 일단 환경은 Ubuntu 20.04 OS가 설치되어 있고 GPU가 있는 장소의 온도는 25-30도, 네트워크는 100G(InfiniBand)구성이다.
제일 처음 언급되는 것은 GPU의 온도이다.
과도한 작업으로 인해 GPU 온도가 너무 상승했기 때문에 작업이 중단되는 경우이다.
본인은 관리만 하므로 정확하게 어떤 작업이 진행될 때 이런 현상이 생기는지는 잘 모른다.
주변의 서버보다 항상 GPU 서버는 엄청난 전력과 발열을 동반한다.
빵빵한 냉방이 필수다.
그 와중에 과도한 작업으로 인해 순간적인 온도가 상승했을 때 이런 현상이 생길 수 있다.
두 번째는 GPU 드라이버 업데이트 또는 재설치이다.
다른 GPU 서버에서 GPU 드라이버를 업데이트하고 나서 이 문제가 생겼다.
롤백을 하고 다시 문제가 사라졌던 적이 있다.
만약 업데이트를 진행하고 이 문제가 생겼다면 다시 롤백을 해야 한다.
하지만 사용 중에 발생한 문제라면 GPU 드라이버 업데이트를 진행해 보는 것이 좋다.
이번 같은 경우 GPU 드라이버 업데이트를 진행하고 문제가 해결되었다.
세 번째는 물리적인 고장 또는 가동 조건이 되지 않는 상황이 발생했을 때이다.
Nvidia 포럼에서 본 글을 가져오자면, 전원 충족이 미달이 의심 및 파워 서플라이를 교체 또는 메인보드 문제 등을 언급했다. 이 문제는 실제로 있을 수 있는 일이다. 처음에 이 서버를 들였을 때 전력 계산을 잘못하여 차단기가 내려가는 경우가 꽤 있었다. 그래서 전기를 증설하게 되었다.
그 뒤로는 전력문제는 없었으나 동일한 에러가 발생했을 때 위의 해결 방법으로 해결이 안 되어 GPU 불량 판정을 받고 해당 그래픽카드를 교체받았다. 그냥 그래픽카드가 고장 난 것이다. 교체하고 정상 동작했다.
Unable to determine the device handle for GPU 0000:02:00.0: GPU is lost. Reboot the system to recover this GPU
Thanks, I’ll replace the PSU first.
forums.developer.nvidia.com
그밖에 그래픽 카드의 조립이 제대로 안된 경우에도 그럴 수 있는 것으로 보인다.
Unable to determine the device handle for GPU 0000:68:00.0: Unknown Error
I have the same problem as the poster taod_dqc nvidia-smi Unable to determine the device handle for GPU 0000:68:00.0: Unknown Error and nvidia-debugdump --list Found 4 NVIDIA devices Device ID: 0 Device name: TITAN Xp GPU internal ID: 0322218016170 Device
forums.developer.nvidia.com
반응형'IT Operation' 카테고리의 다른 글
Geforce 그래픽 카드와 Quadro 그래픽 카드를 함께 장착하면 사용이 가능할까? (0) 2022.06.13 특정 컴퓨터에 특정 사용자의 계정만 접속하도록 설정하는 방법 (0) 2022.06.10 계정에 로그인할 수 없음 문제 해결 방법 (1) 2022.06.05 10G 이더넷 케이블로 구성 후 속도 테스트 (0) 2022.06.04 Supermicro 서버에 새 디스크 연결 후 인식 제대로 안되는 현상 해결 방법 (0) 2022.05.28