로컬에서 LLM을 실행하는데 필요한 RAM 계산 방법과 예상 속도에 대한 안내.
이 글은 로컬에서 LLM을 실행할 때 필요한 RAM을 계산하는 방법을 설명합니다. 모델의 메모리 발자국은 매개변수 수에 따라 달라지며, 특히 양자화 방식에 따라 달라지는 바이트 수를 고려해야 합니다. Q4 양자화를 사용한 7B 모델은 대략 4.2GB의 RAM이 필요하며, 이러한 계산 방법을 통해 사용자는 자신의 하드웨어에 적합한 LLM 모델을 선택할 수 있습니다.
This article explains how to calculate RAM needed to run LLMs locally and what to expect in terms of speed.
The article discusses how to estimate the RAM required to run LLMs locally. It describes the memory footprint of a model based on the number of parameters and the quantization process. For a 7B model with Q4 quantization, around 4.2GB of RAM is needed, allowing users to accurately assess which LLM fits their hardware capabilities. This includes considerations for overhead based on context window size and other factors affecting memory use.