Show GN: VLM은 한국 공공기관 문서를 얼마나 잘 읽을까? KOLongDoc 벤치마크 공개
KOLongDoc 벤치마크는 한국어 긴 문서를 읽는 VLM의 성능을 평가합니다.
KOLongDoc은 한국어 Long-Document VLM의 성능을 측정하기 위한 벤치마크입니다. ChatGPT, Claude, Gemini 등 멀티모달 AI가 공공 업무에 사용되는 가운데, 이 벤치마크는 그들이 긴 한국어 문서를 얼마나 잘 이해하는지 평가할 수 있는 기준을 제공합니다. 벤치마크의 공개는 이러한 기술이 한국의 행정체계에 어떻게 기여할 수 있는지를 탐구하는 데 중요한 역할을 할 것입니다.
KOLongDoc benchmark evaluates VLM performance on Korean long documents.
KOLongDoc is a benchmark designed to measure the performance of Korean Long-Document VLMs. As multimodal AIs like ChatGPT, Claude, and Gemini are starting to be used in public administration, this benchmark provides a way to assess how well they understand long Korean texts. The release of this benchmark plays a critical role in exploring how such technologies can contribute to the administrative system in Korea.