-
InfiniBand Error Counter Check on CA #0 (HCA) Fail 에러IT Operation 2023. 6. 17. 19:19반응형
인피니밴드로 구성한 100G 네트워크가 동작하지 않는 일이 발생했다.
상황은 사용하는 분이 재부팅을 하고 나서 인피니밴드와 통신이 안된다고 했다.
그리고 재부팅을 하는 서버마다 InfiniBand 통신이 끊겼다.
재부팅을 하지 않는 서버는 일단 통신이 유지가 되었다.
그래서 InfiniBand 셀프 테스트 명령을 진행하여 상태를 보았다.
물리적인 연결 상태는 이상이 없었고 통신 불량 상태의 주황색 램프를 점등하고 있었다.
이 상태에서 재부팅 또는 네트워크 서비스를 재시작했지만 문제가 해결되지 않았다.
ibstat을 입력하여 InfiniBand의 연결 상태를 확인한다.
물리적인 링크는 업상태이다.
상태는 Initializing에서 변하지 않는다.
서비스가 올라오지 못하는 상태로 보여진다.
초기화 과정이 진행 후 Active 상태로 변하는 걸로 아는데 그러지 못하고 있다.
드라이버 재설치를 하고 IP를 다시 세팅해도 문제는 계속된다.
이게 문제가 아니라는 것이다.
결국 처음부터 InfiniBand가 구동되려면 어떤 세팅을 했는지 재검토했다.
그리고 opensm 데몬을 재시작하고 정상적으로 돌아왔다.
/etc/init.d/opensmd restaert
재부팅 시에 opensm을 설치한 서버에서 opensm을 켜줘야 한다.
이것을 재부팅 시 자동 실행할 수 있는지 확인을 해봐야 할거 같다.
다른 서버도 주황색으로 점등된 램프가 녹색이 되었다.
sudo hca_self_test.ofed 명령을 입력하여 상태를 체크한다.
정상적으로 기능 체크 및 InfiniBand가 연결되었음을 확인했다.
반응형'IT Operation' 카테고리의 다른 글
구글 워크스페이스 구글드라이브 파일 소유권 이전 방법 (0) 2023.06.18 Supermicro Server 알람 램프가 꺼지지 않는 이유? (0) 2023.06.17 Ubuntu에서 ipmitool 설치 방법 (0) 2023.06.17 Aruba Controller 포트 활성화 / 비활성화 방법 (0) 2023.06.16 Aruba AP 전원이 안켜지는 경우 확인 사항 (0) 2023.06.15