gpt-oss-safeguard technical report
gpt-oss-safeguard 모델의 능력과 안전성 평가를 다룬 기술 보고서입니다.
이 보고서는 gpt-oss-safeguard-120b 및 gpt-oss-safeguard-20b 모델에 대한 기술적인 내용을 다룹니다. 두 모델은 gpt-oss 모델을 기반으로 후속 훈련되어 특정 정책에 따라 콘텐츠를 라벨링하는 능력을 갖추고 있습니다. 또한, 보고서는 이 모델들의 기본 안전성 평가 결과를 제공합니다. gpt-oss 모델의 개발 및 구조에 대한 정보는 원본 모델 카드에서 확인할 수 있습니다.
Technical report detailing capabilities and safety evaluations of gpt-oss-safeguard models.
This report discusses the technical aspects of the gpt-oss-safeguard-120b and gpt-oss-safeguard-20b models. These models are post-trained from gpt-oss to label content based on a provided policy. The report also provides baseline safety evaluations using the underlying gpt-oss models as a reference. Additional information about the development and architecture of the gpt-oss models can be found in the original model card.