Сверточная нейронная сеть (CNN) — это тип нейронной сети глубокого обучения, которая обычно используется в задачах распознавания и классификации изображений. CNN вдохновлены тем, как работает зрительная кора головного мозга человека, и они способны научиться распознавать закономерности в изображениях без каких-либо предварительных знаний.

Вот как шаг за шагом работает CNN:

1-Входное изображение передается на сверточный слой. Сверточный слой содержит набор фильтров, которые представляют собой небольшие двумерные матрицы весов. Фильтры применяются к входному изображению, а выходные данные каждого фильтра представляют собой карту объектов.

2-Карты функций затем передаются в функцию активации. Функция активации — это нелинейная функция, которая помогает усилить важные функции и подавить неважные.

3-Карты объектов затем передаются на слой объединения. Слой объединения уменьшает размер карт объектов, беря максимальное или среднее значение каждой области карты объектов. Это помогает уменьшить количество параметров в сети и сделать сеть более устойчивой к шуму.

4-Выходные данные слоя пула затем передаются в серию полностью связанных слоев. Полносвязные слои аналогичны нейронам в традиционной нейронной сети. Они учатся комбинировать функции предыдущих слоев, чтобы сделать прогноз относительно входного изображения.

Вот пример того, как CNN можно использовать для классификации изображений.

Рассмотрим приведенное выше изображение с изображением птицы, и ваша цель — определить, действительно ли изображение содержит птицу или какой-либо другой объект. Чтобы инициировать этот процесс, вы вводите значения пикселей изображения, упорядоченные в массивы, в начальный слой нейронной сети. Эта многоуровневая сеть предназначена для задач классификации. По мере того, как данные проходят через сеть, различные скрытые уровни участвуют в различных вычислениях и преобразованиях.

В этом процессе задействовано несколько скрытых слоев, таких как сверточный слой, слой выпрямленных линейных единиц (ReLU) и уровень объединения. Эти слои вместе берут на себя задачу извлечения существенных особенностей из изображения. Например, сверточный слой сканирует изображение с помощью специализированных фильтров, чтобы выявить определенные закономерности. Уровень ReLU вводит нелинейность, помогая фиксировать сложные взаимосвязи внутри данных. Слой объединения уменьшает пространственные размеры, сохраняя при этом важную информацию. Впоследствии эти представления с извлеченными признаками передаются через несколько скрытых слоев, где каждый уровень фокусируется на изучении различных уровней абстракции данных. Заключительный этап — полносвязный слой. Здесь сеть усваивает изученные функции, чтобы определить содержимое изображения.

Архитектура сети и изученные параметры позволяют ей распознавать закономерности, соответствующие птицам или другим объектам. В процессе обучения сеть точно настраивает свои внутренние веса и смещения, чтобы согласовать свои прогнозы с фактическим содержанием изображений, на которых она обучалась.

Подводя итог, можно сказать, что этот процесс включает в себя передачу данных изображения через последовательность слоев, которые выполняют сложные операции по извлечению и обработке функций. Эти функции затем используются полносвязным слоем для принятия решения о присутствии птицы или любого другого объекта на изображении.

Сверточная нейронная сеть, часто называемая ConvNet, работает как нейронная сеть прямого распространения, специально предназначенная для анализа визуальных изображений. Он обрабатывает данные, используя сеточную структуру. Его основная цель заключается в обнаружении и классификации объектов на изображениях.

Вот еще один пример нейронной сети, предназначенной для различения двух типов цветов: орхидеи и розы.

В CNN каждое изображение представлено в виде массива значений пикселей.

Вот еще один пример, показывающий, как CNN распознает изображение:

Как видно из диаграммы выше, горят только те значения, которые имеют значение 1.

Наконец, мы можем сказать, что CNN — мощный инструмент для распознавания и классификации изображений. Они способны научиться распознавать сложные закономерности на изображениях без каких-либо предварительных знаний. Это делает их хорошо подходящими для решения различных задач, таких как обнаружение объектов, распознавание лиц и анализ медицинских изображений.