Обработка изображений и компьютерное зрение

Вы когда-нибудь задумывались, как ваш мобильный телефон использует распознавание лиц для разблокировки? Или как различные модели глубокого обучения используются для обнаружения аномалий в изображении? Или как работают фильтры Instagram, чтобы манипулировать получаемым изображением?

В этом посте мы собираемся понять, как работают обработка изображений и компьютерное зрение и как они используются с глубоким обучением для создания инновационных и сложных решений для многих повседневных задач. Чтобы лучше понять эту статью, я рекомендую вам прочитать мою статью Искусственный интеллект и машинное обучение.

Введение

Обработка изображений, как следует из самого слова, заключается в применении различных алгоритмов и методов для манипулирования или изменения изображения, чтобы сделать его подходящим для задачи и варианта использования. Почти каждый из нас использовал обработку изображений для той или иной задачи, например, когда мы используем портретный режим, чтобы щелкнуть селфи, мы используем обработку изображений для размытия фона.

Компьютерное зрение, с другой стороны, является одним из приложений искусственного интеллекта и использует алгоритмы и методы для выявления закономерностей в данных изображения. Чтобы связать это с обработкой изображений, мы можем еще раз взять пример использования портретного режима. В то время как обработка изображений используется для размытия фона, искусственный интеллект используется для идентификации или распознавания фона, и все решение, разработанное с помощью комбинации этих двух, будет решением компьютерного зрения.

Ответ на вопрос «Как наш мобильный узнает, какие объекты размывать, а какие нет?» это искусственный интеллект или глубокое обучение. Ответ на вопрос «Как наш мобильный размывает объекты?» это обработка изображений. И ответ на вопрос «Как в нашем мобильном телефоне реализован портретный режим?» это компьютерное зрение.

Обработка изображений очень часто используется для предварительной обработки изображения перед применением к нему алгоритмов компьютерного зрения. По мере роста приложений искусственного интеллекта развиваются области компьютерного зрения и обработки изображений. Эта природа очень интуитивна, поскольку, когда варианты использования чего-то разнообразятся, методы предварительной обработки также становятся востребованными.

Обработка изображений

Теперь представьте, что вам дали задание создать фильтр Instagram, который распознает пользователя (человека) и делает все на заднем плане размытым, а также делает фон изображения темнее. А пока предположим, что у нас уже есть модель ИИ, которая определяет пользователя по изображению и выдает его координаты. Теперь, как мы можем подойти к этой проблеме?

Структура изображения

При разработке подобных ИИ-решений нам нужно помнить одну вещь: в большинстве случаев при использовании компьютерного зрения модели не обучаются на цветных изображениях, а сначала преобразуются в изображения в градациях серого (черно-белые), а затем использовал. Это связано с тем, что цветные изображения гораздо сложнее обрабатывать, и для обучения модели требуется гораздо больше времени. Давайте разберемся в причине этого.

Изображения хранятся в виде матрицы (двухмерные массивы/векторы), когда дело доходит до их обработки. В случае цветных изображений каждый элемент этой матрицы содержит 3 числа, каждое из которых представляет концентрацию красного, зеленого и синего цветов по шкале от 0 до 255. С другой стороны, каждый элемент изображений в градациях серого содержит только одно число в диапазоне от 0 до 225, где 0 соответствует черному цвету, а 225 — белому. Эти элементы называются пикселями, а эти числа называются цветовыми каналами. Таким образом, для обработки трех цветовых каналов требуется гораздо больше вычислительной мощности и времени, и, поскольку этого можно легко избежать, используя изображения в градациях серого, большинство существующих сегодня моделей принимают в качестве входных данных только изображения в градациях серого.

Алгоритмы и функции обработки изображений

Возвращаясь к нашей проблеме, нашим первым шагом будет преобразование входного изображения из цветного в оттенки серого. Мы можем сделать это, используя предварительно созданный алгоритм/метод и отправив его в качестве входных данных в нашу модель ИИ. Модель обработает это изображение и вернет координаты обнаруженного пользователя, и мы можем сохранить их для дальнейшего использования. Теперь мы создаем нашу функцию размытия и функцию увеличения темноты.

Есть много популярных алгоритмов, которые мы используем для размытия фона, один из самых известных — Gaussian Blur, вы можете прочитать больше о нем в этой Википедии. После того, как мы выбрали алгоритм по нашему выбору и создали функцию, нам нужно использовать ее на изображении. Но как мы можем оставить обнаруженного пользователя вне нашей обработки? Мы будем использовать нечто, называемое маской. Создание закрывает или заменяет все изображение и предотвращает его обработку, и как только остальная часть изображения будет обработана, мы можем удалить маску.

Получив размытое изображение, мы движемся к затемнению фона, для этого мы снова используем ту же маску и затемняем изображение, уменьшая концентрацию каждого цветового канала всех пикселей. После этого мы можем удалить марки и вывести наше свежеобработанное изображение.

В этом сегменте все стратегии или методы, которые мы обсуждали, являются частью обработки изображений. Компьютерное зрение также включает в себя искусственный интеллект, который использовался для создания самой модели, обнаруживающей пользователя на изображении. Разработка модели снова включает в себя много обработки изображений и использование алгоритмов глубокого обучения.

Заключение

Компьютерное зрение не только ограничивается использованием обработки изображений вместе с ИИ, но также может включать обработку сигналов. Это одна из самых быстрорастущих областей с многочисленными приложениями, внедряемыми и используемыми, когда я пишу эту статью. Для новаторских умов нет ничего, что могло бы помешать им найти все больше и больше приложений для резюме. Особенно сейчас, когда приложение расширилось в области здравоохранения, космических (астрономических) исследований, борьбы с преступностью и так далее.

Надеюсь, вам понравилось читать пост. Чтобы следить за новыми статьями, следите за мной на Medium или подпишитесь на мою рассылку новостей в моем официальном блоге Thinkfeed.

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com