인피니밴드
-
InfiniBand Error Counter Check on CA #0 (HCA) Fail 에러IT Operation 2023. 6. 17. 19:19
인피니밴드로 구성한 100G 네트워크가 동작하지 않는 일이 발생했다.상황은 사용하는 분이 재부팅을 하고 나서 인피니밴드와 통신이 안된다고 했다.그리고 재부팅을 하는 서버마다 InfiniBand 통신이 끊겼다.재부팅을 하지 않는 서버는 일단 통신이 유지가 되었다.그래서 InfiniBand 셀프 테스트 명령을 진행하여 상태를 보았다. 물리적인 연결 상태는 이상이 없었고 통신 불량 상태의 주황색 램프를 점등하고 있었다. 이 상태에서 재부팅 또는 네트워크 서비스를 재시작했지만 문제가 해결되지 않았다.ibstat을 입력하여 InfiniBand의 연결 상태를 확인한다.물리적인 링크는 업상태이다. 상태는 Initializing에서 변하지 않는다. 서비스가 올라오지 못하는 상태로 보여진다.초기화 과정이 진행 후..
-
InfiniBand 상태 체크 방법IT Operation 2023. 4. 29. 16:53
InfiniBand는 고성능 대역폭을 구성을 위해 설정하는 네트워크이다.이 구성을 위해 InfiniBand 전용 스위치를 사용하고 100G 네트워크를 구성했다.구성 후 정상동작을 하는지 여부를 확인하는 방법을 기술한다. InfiniBand NIC Self Test 명령어sudo hca_self_test.ofed명령어를 입력하면 NIC를 셀프테스트 함으로써 문제가 있는지 확인할 수 있다. 인터페이스를 연결하고 정상적인 링크가 올라왔는지 확인할 수 있다.명령어는 ibstat을 입력하면 된다.상태는 Active , 물리적 상태 LinkUP, Layer : InfiniBand로 나타난다.