По мере появления новых проблем или появления уже существующих алгоритмы глубокого обучения продолжают приходить на помощь. Доступность данных и современные вычислительные мощности позволяют исследователям и ученым находить решения с помощью машинного обучения для решения реальных проблем.

Идентификация водоемов на изображениях и/или видео — одна из таких проблем. Компьютерное зрение кажется многообещающим, а алгоритмы становятся все более надежными и эффективными. Здесь я попытаюсь дать обзор проблемы семантического сегментирования водоемов и того, почему мы должны заморачиваться.

Семантическая сегментация

Проще говоря, семантическая сегментация — это процесс присвоения метки класса каждому пикселю данного изображения. Задача выполняется путем создания маски сегментации, каждый пиксель которой окрашен в соответствии с присвоенной ему меткой класса. Это эффективная и полезная операция с различными приложениями компьютерного зрения: автономные транспортные средства, робототехника, понимание сцены и медицинская визуализация — это лишь некоторые из них. Обычно это делается с использованием методов глубокого обучения, таких как сверточные нейронные сети (CNN) — хотя механизмы внимания и преобразователи зрения взяли верх — которые обучаются на наборе данных помеченных изображений.

Семантическая сегментация водоемов на изображениях

Идентификация водоемов на изображениях — еще одно применение алгоритмов компьютерного зрения и проблема, которая в последнее время привлекла внимание как научных кругов, так и промышленности. Задача здесь сводится лишь к разделению пикселей на два класса: водные и неводные. В некоторых случаях методы пытаются классифицировать различные водоемы, назначая различные метки классов для рек, озер, океанов и т. д. Некоторые методы также заинтересованы в предоставлении информации о сегментации для связанных объектов в сцене. Например, набор данных ATLANTIS предоставляет маски сегментации, которые включают в себя метки классов, такие как здания, растительность и снег среди прочего.

Почему?

Наше стремление автоматизировать процедуры и процессы и создать более контролируемую среду или даже заменить людей в трудоемкой или критически важной работе привело к огромному увеличению числа возможных заинтересованных сторон, заинтересованных в таких алгоритмах. Мало того, что компьютеры могут идентифицировать водоемы на изображении, но, как и в случае с другими задачами компьютерного зрения, потенциал выполнения этого со сверхчеловеческой производительностью неизбежен. Короче говоря, вот краткий список некоторых приложений, в которых можно использовать семантическую сегментацию водоемов на изображениях:

  • Управление стихийными бедствиями. Наличие систем, идентифицирующих водоемы на изображениях в режиме реального времени, может быть полезным для аварийно-спасательных служб, особенно в районах, пострадавших от наводнения. Правительства и городские советы также могут использовать такие системы, чтобы понять степень наводнения и условия, при которых оно проявляется, и соответствующим образом спланировать свои действия.
  • Мониторинг окружающей среды. Отслеживая изменения в водоемах с течением времени, исследователи и ученые могут следить за здоровьем и качеством водных экосистем и выявлять потенциальное загрязнение или другие экологические проблемы.
  • Городское планирование. Идентификация водоемов на изображениях городских районов может помочь планировщикам принимать решения об использовании земли и развитии, например о том, где разместить парки или зоны отдыха.
  • Управление прибрежной зоной. Сегментация воды может использоваться для определения и картографирования прибрежных объектов, таких как пляжи и коралловые рифы, что помогает в управлении и сохранении этих территорий. (предложение от chatGPT)

Как упоминалось выше, одним из основных факторов успеха моделей сегментации воды и заметного роста литературы была доступность данных. Помимо тщательно сконструированных наборов данных, таких как ATLANTIS, FloodNet или AquaNet, веб-камеры, размещенные в реальных местах, также предоставляют огромное количество данных, полезных для обучения и тонкой настройки предлагаемых подходов.

Можно представить, что можно оценить производительность алгоритмов, измеряя перекрытие между предсказанными пикселями воды сгенерированных масок сегментации и пикселями воды наземной истины, метрика, широко известная как Пересечение по объединению (IoU). Существуют и другие показатели, которые дают ценную информацию о производительности модели сегментации воды и могут помочь определить области для улучшения.

Не вдаваясь в технические детали, стоит упомянуть некоторые проблемы, с которыми сталкиваются современные методы. Подобно всем существующим методам компьютерного зрения и другим методам глубокого обучения, точность вычислений не идеальна. По крайней мере, еще нет. Некоторые из случаев отказа можно резюмировать следующим образом:

  • Внешний вид воды: водоем на изображении появляется в разных формах, например спокойный или бурный, с волнами или без них. Он также может иметь отражающую поверхность, которая также включает тени или блики.
  • Погодные условия. Туман, дождь, снег или даже очень яркое солнце могут чрезвычайно усложнить задачу, влияя на внешний вид воды и делая изображение шумным.
  • Затенения. В случае затопления водоемы могут включать в себя различные объекты, такие как автомобили, деревья, здания или даже люди. Это делает задачу сегментации довольно сложной.

Это всего лишь несколько сценариев, но можно легко придумать множество условий, которые могут негативно повлиять на прогнозы этих вычислительных моделей (например, плохая видимость/ночь, необычный цвет воды). И все эти сценарии оправдывают значимость и возрастающий рост исследовательского фокуса Обобщение вне распространения. В этом случаесценарий вне распределения относится к ситуации, когда алгоритму предлагается идентифицировать и сегментировать водяные пиксели на изображении, которое значительно отличается от обучающих данных. на нем изначально обучались. Обобщение за пределами распространения требует алгоритмов, которые могут обобщаться на невидимые примеры и, следовательно, становятся более точными и надежными.

Конечно, есть сценарии, в которых даже человеку трудно отличить водные пиксели от неводных пикселей на данном изображении. Но, возможно, время, когда наши искусственные нейронные сети будут выполнять эту задачу лучше нас, не за горами. Создание разнообразных наборов данных (даже синтетических), охватывающих широкий спектр условий, может обеспечить решение проблемы. Или, может быть, при построении нейронных сетей, которые мы используем, требуются другие механизмы и операции. В любом случае, сегментация воды — это еще одна проблема, решение которой позволит лучше понять наше собственное визуальное восприятие.