MLOps/GPU

NVIDIA vGPU GPU Operator install

DanielZZI 2024. 6. 16. 19:15
728x90

대부분의 내용은 gpu operator 페이지에 다있다.

https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/

 

https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/

 

docs.nvidia.com

 

 

1.vGPU드라이버 다운로드

vGPU드라이버는 유료라이센스. 전용페이지에서 다운

 

2.준비물

driver(.run) 파일

vGPUDriverCatalog.yaml

gridd.conf

.tok파일

 

3.환경변수설정

 

4.driver 이미지 빌드

준비물포함

 

5.configmap 생성

 

- licensing-config 

vGPU 라이센스

- metrics-config

DCGM exporter의 커스텀 메트릭 사용을 위한 csv파일 다운로드후 configmap으로 생성

 

 

 

6.helm install

helm install  시 -f add_values.yaml 로 overwrite

 

-- vGPU helm 주요 옵션

 

operator.defaultRuntime : 나의 경우 containerd를 cri로 사용

driver.image: 커스텀이미지

driver.licensingConfig.configMapName: 라이센스

dcgmexporter.config, env: 커스텀 메트릭 사용시

rdma,gds, gdrcopy : 지원가능여부에 따라 함께 사용시 강려크.

 

'MLOps > GPU' 카테고리의 다른 글

gpu operator helm 주요 파라미터  (0) 2024.06.16
NVIDIA GPU Operator 용어  (0) 2024.06.16
GPUDirect RDMA와 vGPU  (0) 2024.06.11
vGPU활용한 학습/serving환경  (0) 2024.03.18