gpt-oss의 최악의 경계 리스크를 연구하는 논문입니다.
이 논문에서는 gpt-oss의 최악의 경계 리스크를 연구합니다. 특히, 악의적인 파인튜닝(MFT)을 도입하여 생물학과 사이버 보안 분야에서 가능한 최대 능력을 끌어내는 방식으로 gpt-oss를 파인튜닝하는 과정을 설명합니다.
The paper studies the worst-case frontier risks of releasing gpt-oss.
This paper examines the worst-case frontier risks associated with the release of gpt-oss. It introduces malicious fine-tuning (MFT) aimed at maximizing capabilities by fine-tuning gpt-oss in two specific domains: biology and cybersecurity.