Video generation models as world simulators
비디오 데이터의 생성 모델을 활용한 세계 시뮬레이터 개발을 탐구합니다.
이 논문에서는 비디오 데이터를 위한 생성 모델의 대규모 학습을 탐구합니다. 특히, 우리는 변동하는 기간, 해상도 및 종횡비의 비디오와 이미지에 대해 텍스트 조건부 확산 모델을 공동으로 학습합니다. 트랜스포머 아키텍처를 활용하여 비디오와 이미지의 잠재 코드의 시공간 패치에서 작업합니다. 우리의 가장 큰 모델인 Sora는 고화질 비디오 1분을 생성할 수 있는 능력을 갖추고 있습니다.
Exploring video generation models for building simulators of the physical world.
This paper explores the large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of varying durations, resolutions, and aspect ratios. We utilize a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high-fidelity video, suggesting a promising avenue for general-purpose physical world simulators.