Глубокое погружение в компьютерное зрение с нейронными сетями

Продолжение с части 1.

Машинное зрение, или компьютерное зрение, является популярной темой исследований в области искусственного интеллекта (ИИ), которая существует уже много лет. Однако машинное зрение по-прежнему остается одной из самых больших проблем в области ИИ. В этой статье мы рассмотрим использование глубоких нейронных сетей для решения некоторых фундаментальных проблем компьютерного зрения. В частности, мы рассмотрим такие приложения, как сжатие сети, детальная классификация изображений, субтитры, синтез текстур, поиск изображений и отслеживание объектов.

Синтез текстуры и преобразование стиля

Синтез текстуры используется для создания большего изображения, содержащего ту же текстуру. Учитывая обычное изображение и изображение, содержащее определенный стиль, преобразование стиля не только сохраняет исходное содержимое изображения, но и преобразует это изображение в указанный стиль.

Инверсия функций

Инверсия признаков является основной концепцией синтеза текстуры и преобразования стиля. Учитывая функцию среднего уровня, мы надеемся, что итерация пользователя создаст функцию и изображение, похожее на данную функцию. Инверсия признаков может сказать нам, сколько информации об изображении содержится в признаке среднего слоя.

Учитывая функции глубокой свертки DxHxW, мы преобразуем их в матрицу Dx(HW) X, поэтому мы можем определить матрицу грамм, соответствующую функции этого слоя, как
G=XX^T

Через внешнее произведение матрица Грама фиксирует отношения между различными функциями.

Концепции генерации текстур

Он выполняет инверсию признаков на матрице грамма данного изображения текстуры и делает матрицу грамма каждого из признаков изображения аналогичной матрице грамма для каждого слоя данного изображения текстуры. Объекты нижнего слоя будут собирать подробную информацию, в то время как объекты верхнего слоя могут захватывать объекты большей площади.

Концепции трансформации стиля

Эта оптимизация преследует две основные цели. Первый — приблизить содержимое сгенерированного изображения к содержанию исходного изображения, а второй — привести стиль сгенерированного изображения в соответствие с указанным стилем. Стиль воплощен матрицей Грама, а содержание представлено непосредственно значениями активации нейронов.

Непосредственное создание изображения преобразования стиля

Недостаток описанного выше метода заключается в том, что мы можем достичь сходимости только после нескольких итераций. Решение, предлагаемое связанной работой, состоит в том, чтобы обучить нейронную сеть непосредственному созданию изображения с преобразованием стиля. После завершения обучения для преобразования стиля требуется только одна итерация через сеть прямой связи, что очень полезно. Во время обучения мы берем сгенерированное изображение, исходное изображение и изображение, преобразованное в стиле, и передаем их в заданную сеть для извлечения признаков из разных слоев и расчета алгоритма потерь.

Когда нормализация экземпляра и нормализация партии воздействуют на партию, само изображение может определить среднее значение и дисперсию нормализации выборки. Эксперименты показывают, что с помощью нормализации экземпляра сеть преобразования стиля может удалить сравнительную информацию, связанную с изображением, чтобы упростить процесс генерации.

Условная нормализация экземпляра

Одна проблема с описанным выше методом заключается в том, что нам нужно обучать отдельную модель для каждого стиля. Поскольку разные стили иногда имеют сходство, эту работу можно улучшить, разделив параметры между сетями преобразования стилей для разных стилей. В частности, он изменяет нормализацию экземпляра для сети преобразования стиля, чтобы она имела N групп параметров масштабирования и перевода, каждая группа соответствовала определенному стилю. Таким образом, мы можем получить изображения преобразования N стилей из одного процесса прямой связи.

Верификация/распознавание лица

Мы можем рассматривать проверку/распознавание лиц как более точную детальную задачу распознавания изображений. Верификация лица — это когда система делает два изображения и определяет, принадлежат ли они одному и тому же человеку, в то время как распознавание лиц пытается определить, кем является человек на данном изображении. Система проверки/распознавания лица обычно состоит из трех основных этапов: поиск лица на изображении, определение соответствующих признаков и последующая проверка/распознавание лица. Основная трудность проверки/распознавания заключается в том, что обучение должно выполняться на небольшой выборке. В типичных условиях для каждого человека в наборе данных будет только одно изображение, что называется однократным обучением.

Концепции обоих типов систем

Как проблема классификации (сталкиваясь с огромным количеством классификаций) или как проблема метрического обучения. Если два изображения одного и того же человека, то мы надеемся, что их глубинные черты будут очень похожи. В противном случае их характеристики должны быть непохожими. Позже применяется верификация по расстоянию между глубинными признаками (установка порога расстояния между признаками, при котором определяется, что изображения принадлежат разным людям) или по распознаванию (классификация k ближайших соседей).

ДипФейс

Первая система, которая успешно применила глубокую нейронную сеть к модели проверки/распознавания лиц. DeepFace использует локальное соединение с параметрами без общего доступа. Это связано с тем, что разные части человеческого лица имеют разные характеристики (например, глаза и губы имеют разные характеристики), поэтому классическая природа «общих параметров» традиционного слоя свертки делает его неприменимым для проверки лица. Таким образом, сети распознавания лиц используют соединения с неразделяемыми параметрами местоположения. Сиамская сеть, которую он использует, используется для проверки лица. Когда глубинные черты двух изображений меньше заданного порога, они считаются принадлежащими одному и тому же человеку.

Фейснет

Трехфакторный ввод, при котором предполагается, что расстояние между отрицательными образцами больше, чем расстояние между положительными образцами на заданную величину (например, 0,2). выборки были бы слишком большими, сеть была бы неспособна к обучению. Выбор наиболее сложной группы из трех элементов (например, самого дальнего положительного образца и ближайшего отрицательного образца) помещает эту сеть в наиболее оптимальную ситуацию. FaceNet использует метод половинной сложности, при котором выбираются отрицательные образцы, которые находятся дальше, чем положительный образец.

Потеря перекрестной энтропии на больших интервалах

Это была горячая тема исследований в последние годы. Поскольку различия внутри категории могут быть довольно большими, а сходство между категориями также может быть довольно высоким, было проведено немало исследований, направленных на повышение способности классической перекрестной потери определять глубокие признаки. Например, целью оптимизации L-Softmax является увеличение угла пересечения между векторами параметров и глубинными функциями разных категорий.

A-Softmax делает еще один шаг к завершению длины вектора параметров на 1, сосредоточив обучение на оптимизации глубоких элементов и угла пересечения. На практике L-Softmax и A-Softmax сложно конвергировать, поэтому во время обучения они использовали метод отжига для постепенного отжига стандартного softmax до L-Softmax или A-Softmax.

Обнаружение живучести

Эта система определяет, получено ли изображение лица от реального человека или от фотографии, что является ключевым препятствием для задач проверки/распознавания лица. Некоторые методы, которые в настоящее время популярны в отрасли, включают считывание изменений выражения лица человека, информацию о текстуре, моргание или требование от пользователя выполнить серию движений.

Поиск и получение изображений

При наличии изображения, которое содержит определенный экземпляр (например, конкретную цель, сцену или здание), поиск изображений используется для поиска в базе данных изображений, содержащих элементы, похожие на данный экземпляр. Однако, поскольку ракурс, освещение и препятствия на двух изображениях чаще всего не совпадают, проблема создания алгоритма поиска, способного обрабатывать эти различия в пределах категории изображений, представляет серьезную проблему для исследователей.

Классический процесс поиска изображений

Прежде всего, мы должны извлечь из изображения соответствующие репрезентативные векторы. Во-вторых, примените к этим векторам евклидово расстояние или косинусное расстояние, чтобы выполнить поиск ближайшего соседа и найти наиболее похожие изображения. Наконец, мы используем специальные методы обработки, чтобы внести небольшие коррективы в результаты поиска. Мы видим, что ограничивающим фактором производительности системы поиска изображений является представление изображения.

Неконтролируемый поиск изображений

Неконтролируемый поиск изображений использует предварительно обученную модель ImageNet без внешней информации о контроле в качестве механизма извлечения заданных признаков для извлечения представлений изображения.

Интуитивные идеи. Поскольку глубокие полносвязные функции обеспечивают высокоуровневое описание изображения и являются «естественным» вектором, интуитивный мыслительный процесс заключается в непосредственном извлечении глубоких полносвязных функций в качестве элементов изображения. репрезентативный вектор. Однако, поскольку полносвязные признаки, используемые в классификации изображений, не содержат подробного описания изображения, этот мыслительный процесс дает только средний уровень точности.
Использование функций глубокой свертки. Поскольку функции глубокой свертки содержат более подробную информацию и могут использоваться для обработки изображения любого размера, в настоящее время популярным методом является извлечение функций глубокой свертки, а затем использование взвешенного глобального поиска. и суммирование для получения репрезентативных векторов изображения. Веса представляют необходимость наличия признаков в разных местах и могут принимать форму пространственного векторного веса или векторного веса канала.
CroW: функции глубокой свертки представляют собой распределенное представление. Несмотря на то, что значение отклика нейрона не очень полезно для определения того, принадлежит ли область к цели, если несколько нейронов одновременно вызывают массивную реакцию, то очень вероятно, что эта область содержит цель. Поэтому CroW добавляет карты признаков вдоль канала для получения двухмерной составной карты, нормализует ее и использует в качестве пространственного веса в соответствии с результатом нормализации чисел. Вес канала CroW определяется разреженностью карты признаков, аналогично функции IDF в TF-IDF, функции обработки естественного языка могут использоваться для повышения функций, которые обычно не встречаются, но являются весьма детерминированными.
Взвешенные по классам признаки. Этот метод пытается сделать пространственные веса более детерминированными, используя информацию прогнозирования категорий сети интеграции изображений. В частности, он использует CAM для получения семантической информации о наиболее репрезентативных областях для каждой категории в предварительно обученной сети; затем он использует нормализованный результат CAM в качестве пространственного веса.
PWA: PWA обнаружил, что разные каналы для функций глубокой свертки соответствуют ответам из разных областей цели. Таким образом, PWA может выбрать серию детерминированных карт объектов и использовать их нормализованный результат в качестве пространственного веса для сходимости. Затем система каскадирует результаты, чтобы сформировать представление окончательного изображения.

Контролируемый поиск изображений

Контролируемый поиск изображений сначала берет предварительно обученную модель ImageNet и настраивает ее на другой набор обучающих данных. Затем он извлекает изображения из этой настроенной модели. Чтобы получить лучший результат, набор обучающих данных, используемый для оптимизации модели, обычно аналогичен набору данных поиска. Кроме того, мы можем использовать региональную сеть-кандидата для извлечения области переднего плана из изображения, которая может содержать цель.

Сиамская сеть. Подобно идее распознавания лиц, эта система использует входные данные из двух или трех элементов (++-) для обучения модели, чтобы минимизировать расстояние между двумя образцами и максимизировать расстояние между двумя разными образцы.

Отслеживание объектов

Целью отслеживания объектов является отслеживание движений цели на видео. Обычно цель расположена в первом кадре видео и отмечена рамкой. Нам нужно предсказать, где коробка будет расположена в следующем кадре. Отслеживание объектов аналогично целевому тестированию. Однако сложность отслеживания объекта заключается в том, что мы не знаем заранее, какую цель мы будем отслеживать. Поэтому у нас нет возможности собрать достаточно обучающих данных перед выполнением задачи и обучить специализированный тест.

Сеть здоровья

Подобно концепции проверки лица, использование сети здоровья означает ввод изображения в целевое поле в одной строке, а в другой строке ввод области изображения-кандидата, а затем вывод степени сходства между двумя изображениями. Нам не нужно проходить все остальные области-кандидаты в разных кадрах; скорее, мы можем использовать свёрточную сеть, и нам нужно будет передавать каждое изображение только один раз. С помощью свертки мы можем получить двумерную карту ответов, где наиболее значимая позиция ответа определяет прогнозируемое местоположение ящика. Методы, основанные на сети здоровья, достаточно быстры и способны обрабатывать изображения любого размера.

CFNet

Связанные фильтры обучают линейный шаблон различать области изображения и области вокруг них, а затем используют преобразование Фурье. Связанные фильтры невероятно полезны. CFNet в сочетании с сетью здравоохранения, обученной в автономном режиме, и соответствующим шаблоном онлайн-фильтра способна повысить эффективность отслеживания в взвешенной сети.

Генеративные модели

Этот тип модели используется для изучения распределения данных (изображения) или выборки нового изображения из его распределения. Генеративные модели можно использовать для реконструкции со сверхвысоким разрешением, раскрашивания изображений, преобразования изображений, создания изображений из текста, изучения скрытых представителей изображения, полуконтролируемого обучения и многого другого. Кроме того, генеративные модели можно комбинировать с обучением с подкреплением для использования в моделировании и обучении с обратным подкреплением.

Явное моделирование

Используйте формулу, представляющую вероятность условий, чтобы сделать оценки максимального правдоподобия распределения изображения и извлечь из этого уроки. Недостатки этого метода заключаются в том, что, поскольку пиксели в каждом изображении зависят от предыдущих пикселей, процесс создания изображения будет несколько медленным из-за необходимости начинать с одного угла и продолжать упорядоченно. Например, WaveNet может воспроизводить речь, аналогичную той, которую создают люди, однако, поскольку она не может производиться одновременно, вычисление одной секунды речи занимает 2 минуты, а генерация в реальном времени невозможна.

Вариационный автокодировщик

Чтобы избежать недостатков явного моделирования, вариационный автокодер применяет неявное моделирование к распределению данных. Он считает, что на создание изображения влияет управление скрытой переменной, и предполагает, что скрытая переменная подчиняется диагональному распределению Гаусса.

Вариационный автокодер использует сеть декодирования для создания изображения в соответствии со скрытой переменной. Поскольку мы не можем напрямую применить оценку максимального правдоподобия, при обучении, подобно алгоритму EM, вариационный самокодировщик строит функцию нижней границы функции правдоподобия, а затем использует эту функцию нижней границы для оптимизации. Преимущество вариационного самокодировщика заключается в независимости каждого измерения; мы можем контролировать скрытые переменные, чтобы контролировать факторы, влияющие на изменения в выходном изображении.

Генеративно-состязательные сети

Из-за чрезвычайной сложности обучения распределению данных генеративно-состязательные сети полностью избегают этого шага и сразу генерируют изображение. Генеративные состязательные сети используют генеративную сеть G для создания изображения из случайного шума и дискриминационную сеть D для определения того, является ли входное изображение реальным или поддельным.

Во время обучения цель дискриминационной сети D состоит в том, чтобы определить, является ли изображение реальным или поддельным, а цель генеративной сети G — заставить дискриминативную сеть D склоняться к решению, что ее выходное изображение реально. На практике обучение генеративно-состязательной сети приводит к проблеме коллапса модели, когда генеративно-состязательная сеть не может изучить полное распределение данных. Это улучшает LS-GAN и W-GAN. Как и в случае с вариационным самокодировщиком, состязательная сеть поколений предоставляет более подробную информацию.

Ниже приведена ссылка на подборку нескольких эссе о состязательных сетях поколений: хиндупуравинаш/ган-зоопарк. Ниже приведена ссылка на набор методов обучения враждебных сетей поколений: soumith/ganhacks.

Видео Классификация

Большинство задач, описанных выше, можно использовать в классификации видео. Здесь мы будем использовать классификацию видео в качестве примера, чтобы проиллюстрировать некоторую базовую методологию обработки видеоданных.

Конвергенция функций многокадрового изображения

Этот тип метода рассматривает видео как серию изображений кадров. Сеть получает набор изображений из нескольких кадров (например, 15 кадров), принадлежащих видео, затем извлекает глубинные признаки из этих изображений и, наконец, интегрирует эти признаки изображения, чтобы получить характеристики этого раздела видео для его классификации. Эксперименты показывают, что наилучшие результаты достигаются при использовании «медленного синтеза». Кроме того, независимая организация отдельных кадров также может давать очень конкурентоспособные результаты, а это означает, что изображение из одного кадра содержит значительный объем релевантной информации.

Трехмерная свертка

Расширяет стандартную двумерную свертку до трехмерной свертки для соединения местностей во временном измерении. Например, система может взять свертку VGG 3x3 и расширить ее до свертки 3x3x3 или сходимости 2x2 до сходимости 2x2x2.

Изображение + последовательность двух ветвей структуры

Этот тип метода использует две независимые сети для различения информации об изображении, полученной из видео, и временной информации. Информация об изображении может быть получена из неподвижного изображения из одного кадра и является классическим вопросом классификации изображений. Затем информация о движении получается через оптический поток, отслеживая движение цели по соседним кадрам.

CNN+RNN фиксирует удаленные зависимости

Предыдущие методы способны фиксировать зависимые отношения только между изображениями нескольких кадров. Этот метод использует CNN для извлечения функций изображения из одного кадра, а затем использует RNN для захвата зависимостей между кадрами.

Более того, исследователи попытались объединить CNN и RNN, чтобы каждый слой свертки мог фиксировать удаленные зависимости.

Прочтите похожие статьи и узнайте больше о продуктах и решениях Alibaba Cloud на странице www.alibabacloud.com/blog.

Ссылка:

https://www.alibabacloud.com/blog/deep-dive-into-computer-vision-with-neural-networks-%E2%80%93-part-2_593898?spm=a2c41.11887814.0.0

Глубокое погружение в компьютерное зрение с нейронными сетями — часть 2