ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Unable to determine the device handle for gpu unknown error 해결 방법
    IT Operation 2023. 5. 14. 17:43
    반응형

    GPU서버를 운영하면서 계속 새로운 문제에 직면한다. 서버다 보니 다량의 GPU가 장착되어 있고, 이것도 수명이 있기 때문에.. 

    이번에 발견된 증상은 GPU 하나에서 계속 unable to determine the device handle for gpu unknown error를 출력하는 것이다. 드라이버를 재설치하면 다시 인식이 된다. 하지만 작업을 진행시키면 다시 얼마 안 가서 같은 문제가 발생한다. 문제의 원인을 찾고 해결한 방법을 기록해둔다.

     

     

     

     

     

     

    1. nvidia-smi 명령어로 상태 체크 -> 불가능함(Unknown Error)

    unable to determine the device handle for gpu unknown error

     

     

     

     

     

     

     

     

     

     

     

     

     

    2. nvidia-debugdump --list 실행

    총 GPU개수는 정확하게 잡히지만 7번째 GPU에서 역시 Unknown Error 발생

    nvidia-debugdump --list에서 GPU는 모두 확인되지만 7번째 GPU부터 Unknown Error가 발생하여 7,8은 조회가 되지 않음

     

     

     

     

     

     

     

     

     

     

     

     

     

    3. nvidia-smi -L 실행 -> 7번째 GPU Unknown Error 발생

    7번째 GPU Unknown Error 발생

     

     

     

     

     

     

    A/S를 받았는데 7번째 GPU를 교체했다.

    드라이버 재설치로는 절대 해결되지 않았고 나머지 GPU는 정상 동작중이다.

    보통 GPU의 경우 육안상으로는 고장 확인 여부를 알기 어렵다고 한다.

    하지만 이번엔 GPU에 기름이 흘러나온 흔적이 있어서 교체 받았다. 

    가끔 이런 경우가 있다고 한다. 교체후 며칠 동안 아무 문제 없이 사용 중이다.

    물리적인 고장이 거의 확실한 듯하다.

    반응형

    댓글

Designed by Tistory.