위임형 워크플로에서 LLM의 문서 충실성을 평가하는 DELEGATE-52 벤치마크 소개
DELEGATE-52는 사용자가 LLM에 긴 문서 편집 작업을 맡겼을 때 문서의 충실성을 평가하는 벤치마크입니다. 이 벤치마크는 코딩, 결정학, 악보 표기 등 52개 전문 영역에 걸쳐 깊이 있는 문서 편집 작업을 다룹니다. 사용자들은 이 벤치마크를 통해 LLM의 성능을 비교하고 개선할 수 있는 기회를 가지게 됩니다.
DELEGATE-52 evaluates document fidelity in delegated editing tasks using LLM.
DELEGATE-52 is a benchmark designed to assess how faithfully documents are maintained when users delegate long editing tasks to LLMs. It covers in-depth editing work across 52 specialized areas, including coding, decision science, and score notation. This benchmark allows users to compare LLM performance and identify areas for improvement.