Публикации по теме 'computer-vision'


4 обучающих набора данных с открытым исходным кодом для повторной идентификации личности для вашего проекта машинного обучения
Person ReID (сокращение от Re-identification) — это технология, использующая технологию компьютерного зрения для определения того, есть ли на изображении или видео конкретный пешеход. Это подзадача поиска изображений. Концепция ReID была впервые предложена на конференции CVPR в 2006 году. Короче говоря, ReID может заменить распознавание лиц, чтобы найти объект на видео, когда лицо не может быть захвачено камерами. Общественная безопасность стала общей темой, волнующей все общество, широко..

NatML: Машинное обучение стало проще
NatML: Машинное обучение стало проще Используйте машинное обучение везде За последние несколько лет мы стали свидетелями творческого взрыва в создании пользовательского контента. Такие приложения, как TikTok и Snapchat, создали целые экосистемы изобретательности, ориентированной на пользователя, с пользователями любого возраста и происхождения, создающими замечательный, забавный и часто поразительный контент. Подавляющее большинство этой технологии построено на машинном обучении ...

Обзор — Vision Transformer с деформируемым вниманием
В [1] представлен простой и эффективный деформируемый модуль самоконтроля и построена на нем прочная пирамидальная основа, которая представляет собой деформируемый преобразователь внимания (DAT), полезный для классификации изображений и других сложных задач прогнозирования. Они особенно обеспечивают деформируемое внимание для правильного моделирования взаимодействия между токенами под контролем важных областей карт функций. Несколько наборов искаженных точек выборки используются для..

Объяснение документов 30: DocFormer
Концептуальный обзор Совместная мультимодальность: VL-BERT, LayoutLMv2, VisualBERT, MMBT]. В этом типе архитектуры изображение и текст объединяются в одну длинную последовательность, что затрудняет самостоятельную работу трансформеров из-за кросс- корреляция признаков модальности, упомянутая во введении. Двухпоточный мультимодальный: CLIP, VilBERT: Плюсом является то, что каждая модальность является отдельной ветвью, что позволяет использовать произвольную модель для каждой..

DeepMind предлагает новый преобразователь зрения для произвольного размера и разрешения
Vison Transformer (ViT) стал доминировать в области компьютерного зрения. Он продемонстрировал превосходную производительность и гибкость при обработке входных последовательностей различной длины. Его высокая производительность сделала его грозным претендентом на замену обычной сверточной нейронной сети (CNN). В новой статье Patch n’ Pack: NaViT, преобразователь изображения для любого соотношения сторон и разрешения исследовательская группа Google DeepMind представляет расширенную..

Проективные преобразования и группы преобразований
На предыдущем уроке мы рассмотрели некоторые базовые геометрические примитивы, включающие точку, прямую и коническую, а также их формулировку в однородных координатах. В этом уроке мы изучим некоторые основные геометрические преобразования, сначала мы изучим, что означает гомография, затем мы изучим более сложный набор преобразований, называемый PL (3), который группирует вместе набор преобразований, которые мы более подробно опишем ниже. глубина. В этой части мы будем работать над R², и..

Обещания и опасности противоборствующей маскировки
Перспективы и опасности состязательной маскировки Предисловие: эта статья впервые появилась в блоге IQT , воспроизведена здесь с разрешения. Резюме С ростом доступности изображений сверху машинное обучение становится важным инструментом для анализа этих изображений. Усовершенствованные методы обнаружения объектов компьютерного зрения продемонстрировали большой успех в идентификации объектов, представляющих интерес, таких как корабли, автомобили и самолеты, на изображениях..