AI-ML·중요도 7·2026. 06. 24.·GeekNews

Unlimited OCR — Baidu의 원샷 장문 파싱 모델

── KO ──────────────────

Baidu의 Unlimited OCR은 수십 페이지 문서를 단 한 번에 전사하는 E2E OCR 모델이다.

Baidu의 Unlimited OCR은 DeepSeek OCR을 기반으로 하여 수십 페이지의 문서를 한 번의 순전파로 처리할 수 있는 E2E OCR 모델이다. 이 모델의 핵심 기술인 참조 슬라이딩 윈도우 어텐션(R-SWA)은 디코딩 길이가 늘어나도 KV 캐시를 일정하게 유지하여 효율성을 높인다. 이를 통해 긴 문서의 OCR 작업을 효과적으로 수행할 수 있다.


── EN ──────────────────

Baidu's Unlimited OCR is an E2E OCR model that transcribes multi-page documents in a single forward pass.

Baidu's Unlimited OCR utilizes DeepSeek OCR to develop an E2E OCR model capable of transcribing multi-page documents in just one forward pass. The key innovation is the reference sliding window attention (R-SWA), which maintains a constant KV cache regardless of the decoding length, enhancing the model's efficiency. This advancement allows for effective OCR processing of lengthy texts.

원문 보기 →목록으로