ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • MLNX_OFED 설치시 --add-kernel-support 옵션 사용
    IT Operation 2023. 8. 10. 18:02
    반응형

    처음에 MLNX _OFED 드라이버를 설치했을 때 --force 옵션을 주고 설치했다.

    거침없이 설치되는게 아주 맘에 들었다. 특별한 문제도 없었다.

    이 옵션을 주고 설치해서 문제가 된 건지 확인은 되지 않는다.

    처음 설치시에는 특별한 문제가 없었기 때문이다. 

    잘 실행되고 한동안 아무 문제가 없었다. 

    InfiniBand ibstat
    InfiniBand 설치 후 ibstat으로 인터페이스 상태 확인

     

     

    잘 사용하다가 두 달쯤 지나서 문제가 생긴 거 같다.

    MLNX 인터페이스가 사라지는 현상이다. 

    이 문제는 어느날 재부팅을 하면서 발생했다.

    그리고 재부팅 하면서 무슨 일이 일어났는지 로그는 확인하지 않았다. 

    이 현상은 MLNX 드라이버를 다시 설치하면 해결된다.

    그리고 또 어떤 상황에 의해서 인터페이스가 다시 사라진다.

     

    해결방법이 떠오르지 않아 엔지니어에게 도움을 요청했다.

    그리고 드라이버를 설치할 때 --add-kernel-support 옵션을 주라고 했다.

    mlnxofedinstall --help를 입력하여 옵션을 확인할 수 있다. 

    그리고 간단한 설명도 함께 되어 있다.

    mlnxofedinstall --help
    mlnxofedinstall --help로 드라이버 설치 옵션을 확인할 수 있다.

     

     

    엔지니어의 설명에 따르면,

    원인은 OS또는 기타 패키지가 MLNX_OFED 드라이버가 충돌 상태일 수 있다는 것이다.

    예를 들면 OS 자동업데이트가 진행되도록 되어 있다던지 등의 이유일 수 있다.

    OS 자동업데이트가 되면 기존 설치된 패키지에 영향을 줄 수 있다.

    그리고 MLNX 드라이버가 영향을 받을 수 있다는 것이다.

    그리고 --add-kernel-support를 사용하면 커널에 최적화된 버전을 설치할 수 있다고 했다.

     

    mlnxofedinstall --add-kernel-support로 드라이버를 설치해 봤다.

    일단 구 버전 패키지가 제거된다.

    그리고 kernel에서 mlnx 의존성과 관련된 녀석들이 나열되고 설치가 진행된다.

    기존 설치보다 훨씬 오래 걸린다. 꼼꼼히 체크하면서 설치가 진행되는 듯하다.

    mlnxofedinstall --add-kernel-support
    mlnxofedinstall --add-kernel-support 명령으로 mlnx 드라이버를 설치

     

     

    마지막에 펌웨어 업데이트가 진행되고 설치 정보가 나타난다.

    Versions 부분을 보니 최신 버전 같아 보인다.

    마지막 녹색 줄을 보니, 새 드라이버를 로드하려면 서비스를 재시작해야 하는 거 같다.

    ConnectX5 NIC 인피니밴드 드라이버
    ConnectX5 NIC 인피니밴드 드라이버 설치 완료

     

     

     

    새 드라이버를 실행하기 위해 /etc/init.d/openibd restart 명령어를 입력한다.

    그리고 정상 동작함을 확인했다.

    /etc/init.d/openibd restart
    /etc/init.d/openibd restart 명령어

     

    OS의 자동 업데이트를 끄고 한동안 다시 지켜봐야 할 것 같다.

    반응형

    댓글

Designed by Tistory.