Contrastive Language Image Pretraining (CLIP) — одна из самых популярных стратегий предварительной подготовки для высококачественных опорных сетей зрения, поскольку она демонстрирует впечатляющие возможности передачи с нулевым выстрелом, а ее производительность конкурирует с лучшими подходами, контролируемыми метками. Между тем, подписи к изображениям, несмотря на их…