gpu-operator 2

NVIDIA GPU Operator 용어

GPU Driver CRD (NVIDIA Driver CRD)개별 노드에 GPU driver type과 버전을 지정할 수 있는 nvidia custom driver, custom resource를 생성할 수 있다.노드셀렉터를 통해 노드별 os에 따른 드라이버설정 가능-- Cluster Policy CRD와 NVIDIA Driver CRD 비교https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/gpu-driver-configuration.htmlKubeVirtk8s cluster상 VM환경 생성성하고 관리하게 해주는 기술.VM과 Container를 위한 개별 클러스터를 구성할 필요 없이 하나의 k8s cluster에서 모두 사용가능하게 ..

MLOps/GPU 2024.06.16

GPUDirect RDMA와 vGPU

먼저 RDMA부터 알아보자RDMA (Remote Direct Memory Access)RDMA는 네트워크를 통해 데이터 전송 시, CPU의 개입을 최소화하고 메모리 대 메모리 전송을 직접 수행하는 기술입니다. 주요 특징은 다음과 같습니다:낮은 지연 시간: 데이터 전송 중에 CPU가 관여하지 않기 때문에 지연 시간이 매우 짧습니다.높은 대역폭: 네트워크 인터페이스 카드(NIC)가 직접 메모리에 접근하여 데이터를 전송하기 때문에 높은 대역폭을 제공합니다.낮은 CPU 오버헤드: CPU의 개입이 최소화되어 CPU 사용률이 낮아집니다.제로 카피: 데이터가 직접 전송되므로 추가적인 데이터 복사가 필요 없습니다.RDMA는 인피니밴드(InfiniBand), RoCE (RDMA over Converged Ethernet..

MLOps/GPU 2024.06.11