VPT를 활용하여 마인크래프트를 플레이하는 신경망 모델을 훈련하였습니다.
신경망 모델이 대규모의 비라벨 마인크래프트 비디오 데이터셋으로 Video PreTraining(VPT)을 통해 훈련되었습니다. 이 모델은 소량의 라벨링된 데이터로 다이아몬드 도구를 제작하는 방법을 학습하였으며, 이는 숙련된 인간이 20분 이상 걸리는 작업입니다. 모델은 키 입력과 마우스 움직임과 같은 인간의 원래 인터페이스를 사용해 일반화 가능성을 보여주고 있습니다.
A neural network was trained to play Minecraft using Video PreTraining (VPT).
A neural network was trained on a massive unlabeled video dataset of Minecraft gameplay using Video PreTraining (VPT), alongside a small amount of labeled data. With fine-tuning, the model can learn to craft diamond tools, a task that typically takes skilled humans over 20 minutes. The model utilizes native human interfaces like keystrokes and mouse movements, representing progress toward general-purpose computer-using agents.