DGX Spark에서 GPT-OSS 최적화하기NVIDIA DGX Spark (GB10, SM 12.1, 128GB 통합 메모리) 환경에서vLLM + openai/gpt-oss-120b의 추론 성능을 단계별로 최적화한 기록1. 테스트 환경항목사양하드웨어NVIDIA DGX Spark (GB10 SoC)GPU 아키텍처Blackwell SM 12.1 (consumer/edge)메모리128GB 통합 메모리 (CPU+GPU 공유), 273 GB/sOSLinux 6.17.0-1008-nvidia (aarch64)모델openai/gpt-oss-120b (120B MoE, MXFP4)추론 엔진vLLM (NGC 이미지: nvcr.io/nvidia/vllm:26.01-py3)배포 방식Docker Compose2. Basel..