ИИ, который правильно объясняет
Если вы поместите изображение, оно вернет текст.
Он использует библиотеку под названием LAVIS.
Он очень прост в использовании.
Применение
установить
pip install salesforce-lavis
Список доступных моделей
from lavis.models import model_zoo print(model_zoo)
============================================= ===
Типы архитектур
=================================== ========== ==
albef_classification ve
albef_feature_extractor base
albef_nlvr nlvr
albef_pretrain base
albef_retrieval coco, flickr
albef_vqa vqav2
alpro_qa msrvtt, msvd
alpro_retrieval msrvtt, didemo
blip_caption base_coco, large_coco
blip_classification base
blip_feature_extractor base
blip_image_text _matching base, large
blip_nlvr nlvr
blip_pretrain base
blip_retrieval coco, flickr
blip_vqa vqav2, okvqa, aokvqa
blip2_opt pretrain_opt2.7b, pretrain_opt6.7b, caption_coco_opt2.7b, caption_coco_opt6.7b
blip2_t5 pretrain_flant5xl, pretrain_flant5xl_vitL, pretrain_flant5xxl, caption_coco_flant5xl
blip2_feature_extractor pretrain, pretrain_vitL, coco
blip2 pretrain, pretrain_vitL, coco
blip2_image_text_matching pretrain, pretrain_vitL, coco
pnp_vq основание, большое, 3б
pnp_unifiedqav2_fid
база img2prompt_vqa
clip_feature_extractor ВиТ-Б-32, ВиТ-Б-16, ВиТ-Л-14, ВиТ-Л-14–336, РН50
клип ВиТ-Б-32 , ВиТ-Б-16, ВиТ-Л-14, ВиТ-Л-14–336, РН50
gpt_dialogue base
================== ======================= ==========
Типы архитектур
======== ============================= ============
albef_classification ve
albef_feature_extractor base
albef_nlvr nlvr
albef_pretrain base
albef_retrieval coco, flickr
albef_vqa vqav2
alpro_qa msrvtt, msvd
alpro_retrieval msrvtt, didemo
blip_caption base_coco, large_coco
blip_classification base
blip_feature_extractor base
blip_image_text_matching base, large
blip_nlvr nlvr
blip_pretrain base
blip_retrieval coco, flickr
blip_vqa vqav2 , okvqa, aokvqa
blip2_opt pretrain_opt2 .7b, pretrain_opt6.7b, caption_coco_opt2.7b, caption_coco_opt6.7b
blip2_t5 pretrain_flant5xl, pretrain_flant5xl_vitL, pretrain_flant5xxl, caption_coco_flant5xl< br /> blip2_feature_extractor pretrain, pretrain_vitL, кокос
blip2 pretrain, pretrain_vitL, coco
blip2_image_text_matching pretrain, pretrain_vitL, coco
pnp_vqa base, large, 3b
pnp_unifiedqav2_fid
img2prompt_vqa base
clip_feature_extractor ViT-B-32, ViT- Б-16, ВиТ-Л-14, ВиТ-Л-14–336, РН50
клипса ВиТ-Б-32, ВиТ-Б-16, ВиТ-Л-14, ВиТ-Л-14–336, RN50
база gpt_dialogue
исполнение
import torch from PIL import Image from lavis.models import load_model_and_preprocess # setup device to use device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # load sample image raw_image = Image.open("cosplay_girl.jpg").convert("RGB") device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # loads BLIP caption base model, with finetuned checkpoints on MSCOCO captioning dataset. # this also loads the associated image processors model, vis_processors, _ = load_model_and_preprocess(name="blip_caption", model_type="base_coco", is_eval=True, device=device) # preprocess the image # vis_processors stores image transforms for "train" and "eval" (validation / testing / inference) image = vis_processors["eval"](raw_image).unsqueeze(0).to(device) # generate caption model.generate({"image": image})
«человек поливает сиропом стопку блинов»
спросить об изображении
from lavis.models import load_model_and_preprocess model, vis_processors, txt_processors = load_model_and_preprocess(name="blip_vqa", model_type="vqav2", is_eval=True, device=device) # ask a random question. question = "What color is this person's hair?" image = vis_processors["eval"](raw_image).unsqueeze(0).to(device) question = txt_processors["eval"](question) model.predict_answers(samples={"image": image, "text_input": question}, inference_method="generate")
'ягоды'
🐣
Я инженер-фрилансер.
Консультация по работе
Пожалуйста, не стесняйтесь обращаться к нам с кратким описанием разработки.
[email protected]
Я создаю приложения с использованием машинного обучения и технологии дополненной реальности.
Я отправляю информацию, связанную с машинным обучением / дополненной реальностью.