-
MLNX_OFED 설치시 --add-kernel-support 옵션 사용IT Operation 2023. 8. 10. 18:02반응형
처음에 MLNX _OFED 드라이버를 설치했을 때 --force 옵션을 주고 설치했다.
거침없이 설치되는게 아주 맘에 들었다. 특별한 문제도 없었다.
이 옵션을 주고 설치해서 문제가 된 건지 확인은 되지 않는다.
처음 설치시에는 특별한 문제가 없었기 때문이다.
잘 실행되고 한동안 아무 문제가 없었다.
InfiniBand 설치 후 ibstat으로 인터페이스 상태 확인 잘 사용하다가 두 달쯤 지나서 문제가 생긴 거 같다.
MLNX 인터페이스가 사라지는 현상이다.
이 문제는 어느날 재부팅을 하면서 발생했다.
그리고 재부팅 하면서 무슨 일이 일어났는지 로그는 확인하지 않았다.
이 현상은 MLNX 드라이버를 다시 설치하면 해결된다.
그리고 또 어떤 상황에 의해서 인터페이스가 다시 사라진다.
해결방법이 떠오르지 않아 엔지니어에게 도움을 요청했다.
그리고 드라이버를 설치할 때 --add-kernel-support 옵션을 주라고 했다.
mlnxofedinstall --help를 입력하여 옵션을 확인할 수 있다.
그리고 간단한 설명도 함께 되어 있다.
mlnxofedinstall --help로 드라이버 설치 옵션을 확인할 수 있다. 엔지니어의 설명에 따르면,
원인은 OS또는 기타 패키지가 MLNX_OFED 드라이버가 충돌 상태일 수 있다는 것이다.
예를 들면 OS 자동업데이트가 진행되도록 되어 있다던지 등의 이유일 수 있다.
OS 자동업데이트가 되면 기존 설치된 패키지에 영향을 줄 수 있다.
그리고 MLNX 드라이버가 영향을 받을 수 있다는 것이다.
그리고 --add-kernel-support를 사용하면 커널에 최적화된 버전을 설치할 수 있다고 했다.
mlnxofedinstall --add-kernel-support로 드라이버를 설치해 봤다.
일단 구 버전 패키지가 제거된다.
그리고 kernel에서 mlnx 의존성과 관련된 녀석들이 나열되고 설치가 진행된다.
기존 설치보다 훨씬 오래 걸린다. 꼼꼼히 체크하면서 설치가 진행되는 듯하다.
mlnxofedinstall --add-kernel-support 명령으로 mlnx 드라이버를 설치 마지막에 펌웨어 업데이트가 진행되고 설치 정보가 나타난다.
Versions 부분을 보니 최신 버전 같아 보인다.
마지막 녹색 줄을 보니, 새 드라이버를 로드하려면 서비스를 재시작해야 하는 거 같다.
ConnectX5 NIC 인피니밴드 드라이버 설치 완료 새 드라이버를 실행하기 위해 /etc/init.d/openibd restart 명령어를 입력한다.
그리고 정상 동작함을 확인했다.
/etc/init.d/openibd restart 명령어 OS의 자동 업데이트를 끄고 한동안 다시 지켜봐야 할 것 같다.
반응형'IT Operation' 카테고리의 다른 글
DELL NX3230 메모리 경고등 발생시 해결 방법 (0) 2023.08.13 슈퍼마이크로 서버 붉은 LED 점등시 확인 사항 (0) 2023.08.12 폴더 안에 여러개의 파일의 소유자를 변경하는 방법 (0) 2023.08.10 Slack 기본 언어 변경 (0) 2023.08.09 Slack 회사 이름(워크스페이스 이름) 또는 도메인 변경 방법 (0) 2023.08.09