NVIDIA의 SANA-WM은 1분 길이의 720p 비디오를 생성하는 오픈소스 모델이다.
NVIDIA의 SANA-WM은 이미지 한 장과 6-DoF 카메라 궤적을 입력으로 받아 단일 GPU에서 1분 길이의 720p 비디오를 생성할 수 있는 오픈소스 월드 모델이다. 이 모델은 Hybrid Linear Diffusion Transformer를 활용하여 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합함으로써 긴 롤아웃의 일관성을 유지하는 것이 특징이다. SANA-WM은 최신 비디오 생성 기술의 발전을 보여준다.
NVIDIA's SANA-WM is an open-source model for generating 720p videos lasting one minute.
NVIDIA's SANA-WM is an open-source world model that takes a single image and a 6-DoF camera trajectory to generate a controllable 720p video lasting one minute on a single GPU. The model maintains the consistency of long rollouts by combining a frame-wise Gated DeltaNet with periodic softmax using a Hybrid Linear Diffusion Transformer. SANA-WM showcases advancements in the latest video generation technologies.