MLXP에서 Kubernetes 기반 LLM 서빙 최적화 기술 도입 사례를 공유합니다.
NAVER ENGINEERING DAY 2026에서 발표된 세션을 통해 MLXP의 LLM 서빙 최적화 기술 도입과 관련된 내용을 다룹니다. 기술적 진단 및 문제 해결 과정을 중심으로 KV Cache 인지 라우팅, Prefix Cache, 분산 멀티노드 서빙과 같은 최신 기술들이 Kubernetes 환경에 적용된 사례를 공유합니다. 발표 대상은 GPU 워크로드 운영을 하는 플랫폼 엔지니어 및 MLOps 엔지니어들로, 실전에서의 어려움과 해결 방법이 상세히 설명됩니다.
The article shares the case of implementing Kubernetes-based LLM serving optimization technologies at MLXP.
This article discusses the session presented at NAVER ENGINEERING DAY 2026, focusing on the implementation of LLM serving optimization technologies at MLXP. It addresses the integration of advanced techniques like KV Cache routing, Prefix Cache, and distributed multi-node serving in a Kubernetes production environment. The presentation details the challenges faced and the troubleshooting methods adopted, targeting platform and MLOps engineers handling GPU workloads.