728x90
대부분의 내용은 gpu operator 페이지에 다있다.
https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/
https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/
docs.nvidia.com
1.vGPU드라이버 다운로드
vGPU드라이버는 유료라이센스. 전용페이지에서 다운
2.준비물
driver(.run) 파일
vGPUDriverCatalog.yaml
gridd.conf
.tok파일
3.환경변수설정
4.driver 이미지 빌드
준비물포함
5.configmap 생성
- licensing-config
vGPU 라이센스
- metrics-config
DCGM exporter의 커스텀 메트릭 사용을 위한 csv파일 다운로드후 configmap으로 생성
6.helm install
helm install 시 -f add_values.yaml 로 overwrite
-- vGPU helm 주요 옵션
operator.defaultRuntime : 나의 경우 containerd를 cri로 사용
driver.image: 커스텀이미지
driver.licensingConfig.configMapName: 라이센스
dcgmexporter.config, env: 커스텀 메트릭 사용시
rdma,gds, gdrcopy : 지원가능여부에 따라 함께 사용시 강려크.
'MLOps > GPU' 카테고리의 다른 글
gpu operator helm 주요 파라미터 (0) | 2024.06.16 |
---|---|
NVIDIA GPU Operator 용어 (0) | 2024.06.16 |
GPUDirect RDMA와 vGPU (0) | 2024.06.11 |
vGPU활용한 학습/serving환경 (0) | 2024.03.18 |