AI-ML·중요도 7·2026. 05. 18.·r/MachineLearning
Rewriting model inference with CUDA kernels: the bottleneck was not just GEMM [P]
── KO ──────────────────
CUDA를 활용한 모델 추론 최적화에 관한 기사의 내용입니다.
이 기사는 CUDA 기반의 모델 추론 런타임을 구현하면서 겪은 경험에 대해 설명합니다. PyTorch 및 TensorRT와 같은 기존 런타임 대신 C++/CUDA 커널로 추론 경로를 재작성하여 작은 배치에서 성능을 개선하려고 합니다. 특히, 추론 지연의 주요 원인으로 여러 요소들이 관여하며, 이는 로봇 공학 및 실시간 ML 워크로드에서 더욱 두드러집니다.
── EN ──────────────────
The article discusses optimizing model inference using CUDA.
This article covers the experience of implementing a CUDA-first model inference runtime aimed at improving performance for small-batch and real-time ML workloads. It suggests rewriting the inference path using C++/CUDA kernels instead of relying solely on existing runtimes like PyTorch and TensorRT. The article highlights various factors contributing to latency, particularly relevant in applications like robotics where batch sizes are typically one.