nvidia-smi
-
nvidia-smi -L 명령어IT Operation 2023. 5. 6. 03:31
그래픽 카드에 문제가 있는 거 같다는 연락이 왔다. 총 8개의 GPU가 장착되어 있는데, GPU서버의 퍼포먼스 이상이 있는 거 같다고 했다.서버가 동작은 하는것으로 보아 8개 중 어떤 GPU에 이상이 생겼는지 확인이 필요하다. 그래서 nvidia-smi -L을 입력하여 확인해 봤다.이 명령어는 인식되는 GPU들의 목록과 UUID값을 출력해 준다. nvidia-smi와 다른 점은, 그래픽카드 모델명이 보인다는 것이다.총 8개의 GPU 중 7번째 GPU의 정보가 출력되지 않는다.뭔가 문제가 있다. 자세한 건 좀 더 알아봐야겠다.
-
nvidia-smi 사용 방법IT Operation 2023. 5. 6. 02:25
GPU 서버를 관리하다 보니 점점 알아야 할게 많아진다.가끔 GPU의 상태를 확인하기 위해 nvidia-smi 명령어를 사용한다. nvidia-smi를 입력시 나타나는 정보를 어떻게 해석해야 하는지 알아보자. NVIDIA-SMI : NVIDIA-SMI의 버전Driver Version : GPU의 드라이버 버전CUDA Version : 현재 GPU 드라이버에 가장 잘 맞는 CUDA 버전(현재 버전이 아니다)GPU : GPU 번호Fan : Fan이 가동되는 속도, 온도로 나타날 수도 있다.Temp : GPU의 온도Pwr Usage / Cap : GPU가 사용중인 전력 / GPU가 사용할 수 있는 최대 전력 가동 중인 프로세스도 함께 출력된다.가동 중이 아닌 경우, 표시되는 값이 없다. GPU : 설치..