Presentation: Realtime and Batch Processing of GPU Workloads
조셉 스타인이 GPU 작업 부하의 실시간 및 배치 처리에 대해 발표합니다.
조셉 스타인은 프라이빗 클라우드 데이터 센터 내에서 AI-as-a-Service 플랫폼을 구축하는 방법에 대해 설명합니다. 그는 다중 네임스페이스 스케줄링을 통해 활용되지 않는 GPU 풀을 극대화하고, Valkey와 Lua를 활용하여 원자 우선 순위 큐잉 및 압력 관리 기술을 적용합니다. 또한, OWASP 상위 10개 LLM 리스크를 중앙 프록시 게이트웨이를 통해 완화하고, 사용자 정의 S3-Kafka 프록시를 사용하여 배치 파이프라인을 확장하는 방법도 다룹니다.
Joseph Stein discusses real-time and batch processing of GPU workloads.
Joseph Stein presents on engineering an AI-as-a-Service platform within a private cloud data center. He explains how to maximize underutilized GPU pools using multi-namespace scheduling, and discusses leveraging Valkey and Lua for atomic priority queuing and backpressure management. He also addresses mitigating OWASP Top 10 LLM risks through central proxy gateways and scaling batch pipelines with a custom S3-to-Kafka proxy.