CLIP는 자연어 감독을 통해 시각 개념을 학습하는 신경망입니다.
CLIP은 자연어 감독을 통해 시각 개념을 효율적으로 학습하는 신경망입니다. 이 모델은 인식할 시각 범주의 이름만 제공하면 모든 시각 분류 기준에 적용될 수 있으며, GPT-2 및 GPT-3의 '제로샷' 기능과 비슷한 방식으로 작동합니다. CLIP의 도입은 시각 인식의 발전에 중요한 기여를 할 것으로 기대됩니다.
CLIP is a neural network that learns visual concepts through natural language supervision.
CLIP is an innovative neural network that efficiently learns visual concepts from natural language supervision. It can be applied to any visual classification benchmark by simply providing the names of the visual categories to recognize, similar to the 'zero-shot' capabilities of GPT-2 and GPT-3. The introduction of CLIP is expected to make significant contributions to advancements in visual recognition.