Предложение по разработке и обучению автоматизированной системы идентификации носорогов на основе ограниченных данных фотоловушек.

Компания Cooper Oelrichs
СИЭС

Введение

Два индонезийских вида носорогов, суматранский и яванский носорог, оба находятся под угрозой исчезновения. Подсчитано, что всего в мире осталось 68 яванских носорогов и 80 суматранских носорогов.

Предлагаемый подход к сохранению требует расширения программ фотоловушек для сбора данных для изучения оставшихся популяций индонезийских носорогов, а затем разработки системы искусственного интеллекта для автоматической идентификации отдельного носорога на изображениях фотоловушек.

В этой статье будет подробно рассказано о дизайне системы искусственного интеллекта.

Задний план

Существуют постоянные усилия по сохранению этих видов, но понимание оставшихся популяций ограничено. Во многом это связано со сложностью изучения этих редких животных в густых тропических лесах Индонезии. Остальные популяции настолько малы, что предлагаемый подход к сохранению включает в себя мониторинг и управление отдельными носорогами. Это позволит, например, перемещать изолированного носорога к возможным партнерам, а также выявлять случаи браконьерства и реагировать на пропажу отдельного носорога.

Фотоловушки использовались для успешного изучения яванского носорога в национальном парке Уджунг-Кулон и использовались в ограниченном количестве для суматранского носорога в национальных парках Маунт-Леузер и Уэй-Камбас. Однако идентификация отдельного носорога по изображениям с фотоловушек — это трудоемкий процесс, который может выполняться только персоналом, имеющим опыт распознавания носорогов. Это ограничивает объем изображений с фотоловушек, которые могут быть обработаны, и делает непрактичным использование изображений с фотоловушек для выявления проблем, требующих быстрого реагирования.

Посмотрите этот пост для более подробного описания проблемы и предлагаемого решения. Этот проект все еще находится в стадии предложения.

Сбор данных

Почему фотоловушки

Существует множество вариантов изучения диких популяций животных. К ним относятся трансекты, GPS-метки или ошейники, фотоловушки, а также спутниковые или аэрофотоснимки. Трансекты — это интенсивный ручной процесс, который требует больших затрат в течение многолетнего проекта, метки GPS предоставляют отличные данные об индивидуальном поведении, но являются инвазивными, поскольку требуют отлова носорогов для ошейников или меток, а спутниковые или аэрофотоснимки не могут проникнуть в плотную среду. навес тропического леса.

Для этого проекта предлагаются фотоловушки из-за способности этой технологии успешно работать в густых тропических лесах и создавать набор данных с достаточной детализацией для идентификации людей при минимальной инвазии. Фотоловушки успешно использовались в сочетании с моделями машинного обучения в нескольких недавних природоохранных проектах. Одним из ярких примеров является проект Snapshot Serengeti. В рамках этого проекта было развернуто 225 фотоловушек на площади 1125 км2 в Национальном парке Серенгети, Танзания, и к 2013 году было собрано 1,2 миллиона наборов изображений. Эти данные использовались для обучения глубокой нейронной сети для классификации видов на изображениях с точностью 88,9%.

Виды, находящиеся на грани исчезновения, и ограниченная доступность данных

Ограниченный размер находящихся под угрозой исчезновения яванских и суматранских популяций затрудняет сбор достаточного количества данных для обучения системы распознавания изображений. Существует неотъемлемое ограничение на количество людей, которое может содержать набор данных, просто из-за размера популяции. В то время как сложная среда и вероятность найти члена небольшой популяции ограничивают общее количество изображений, которые можно собрать.

Эта проблема решается при разработке системы классификации изображений.

Система искусственного интеллекта

Ручная идентификация людей на изображениях

Люди способны идентифицировать отдельных животных по изображениям. Эта статья 1996 года подробно описывает ручной метод идентификации черного носорога по изображениям.

Машинное обучение и индивидуальная идентификация

В последние годы был достигнут значительный прогресс в разработке систем машинного обучения для идентификации отдельных животных по изображениям. Некоторые важные примеры представлены ниже.

  1. Распознавание лиц: приматы в дикой природе. В этой статье обсуждается разработка модели идентификации под названием PrimNet. Три версии модели были обучены на 3000 изображений лемуров, 1450 изображений золотых обезьян и 5559 изображений шимпанзе, и они достигли точности первого ранга на открытом наборе 82%, 66% и 37% соответственно. Конвейер модели состоит из выравнивания и обнаружения лиц, за которыми следует классификатор сверточной нейронной сети.
  2. Дикая книга. Wildbook — это обобщенная система искусственного интеллекта для идентификации отдельных животных по изображениям. Он использовался внутри Wildbook для разработки систем идентификации китообразных (включая горбатых китов, кашалотов, афалин), жирафов, китовых акул, скатов манта и морских черепах, а также многих других видов другими организациями. Конвейер модели состоит из двух этапов: обнаружение, состоящее из каскада глубоких сверточных нейронных сетей, которые выполняют классификацию видов всей сцены, локализацию ограничивающих рамок объектов и окончательную классификацию видов для ограничивающих рамок-кандидатов; и идентификация — которая классифицирует ограничивающие рамки с использованием извлеченных дескрипторов SIFT.
  3. Лица шимпанзе в дикой природе. В этой статье обсуждается серия модельных экспериментов с двумя наборами данных, набором данных C-Zoo с 2109 изображениями и одним набором данных C-Tai с 4377 пригодными для использования изображениями (полный набор данных больше), с достижением средней скорости распознавания по классам 92% и 77% для наиболее точной экспериментальной модели для каждого набора данных. Конвейер модели начинается с изображений, обрезанных по областям лица, которые передаются в модель классификации. Модель классификации состоит из SVM, которая обучается на выходных данных нескольких слоев предварительно обученной сверточной нейронной сети (VGGFaces или BVLC AlexNet). В некоторых экспериментах предварительно обученная сеть была настроена на низкую скорость обучения.
  4. На пути к автоматизированному визуальному мониторингу отдельных горилл в дикой природе. В этой статье обсуждается разработка модели идентификации, которая обучается на наборе данных из 2500 изображений горилл и достигает точности 62%. Конвейер модели получает полевые изображения, после чего выполняется распознавание лиц с помощью тонко настроенной модели You Only Look Once (YOLO). Затем каждая область-кандидат обрабатывается нижними уровнями модели BVLC AlexNet для извлечения признаков (без тонкой настройки), а извлеченные признаки затем классифицируются с помощью линейного SVM.
  5. На пути к автоматической идентификации слонов в дикой природе. В этой статье используется тот же подход, что и в статье о горилле выше. Модель идентификации обучается на наборе данных из 2078 изображений слонов и достигает точности 74%. Конвейер модели получает входные изображения, после чего выполняется обнаружение лиц с использованием точно настроенной модели You Only Look Once (YOLO). Затем каждая область-кандидат обрабатывается нижними уровнями модели ResNet50 для извлечения признаков (без тонкой настройки), затем извлеченные признаки классифицируются с помощью SVM.

Предлагаемая модель

На основе проведенного выше исследования предлагается система искусственного интеллекта для автоматической идентификации индонезийского носорога по изображениям с фотоловушек. Предлагаемый подход, который описан ниже, аналогичен тем, которые используются в документах «На пути к автоматизированному визуальному мониторингу отдельных горилл в дикой природе» и «На пути к автоматической идентификации слонов в дикой природе». По мере сбора данных конвейер моделирования будет проверен и скорректирован, а альтернативные подходы будут опробованы на основе новых и существующих исследований.

Предлагаемый газопровод.

  1. Предварительная обработка. Изображения фотоловушек будут предварительно обработаны по мере необходимости, например, может быть выполнено масштабирование и нормализация изображения, а набор данных может быть дополнен сгенерированными изображениями.
  2. Обнаружение объекта. Обнаружение объектов будет использоваться для обрезки изображений до морд или тел носорогов в зависимости от того, что дает наилучшие результаты. Это может быть выполнено с использованием модели YOLO (унифицированное обнаружение объектов в реальном времени — комбинированная модель классификации объектов и ограничивающей рамки) или какой-либо другой модели обнаружения объектов.
  3. Извлечение признаков. Обрезанные изображения будут вводиться в предварительно обученную нейронную сеть компьютерного зрения для извлечения признаков. Как и в случае с документами «На пути к автоматическому визуальному мониторингу отдельных горилл в дикой природе» и «На пути к автоматической идентификации слонов в дикой природе», это, скорее всего, будет глубокая сверточная сеть, которая была обучена на наборе данных ImageNet и имела ряд его более поздние скрытые слои и его выходной слой удалены.
  4. Классификация. Результат этапа выделения признаков будет введен в неглубокую модель, которая была обучена классифицировать отдельных носорогов. Это может быть нейронная сеть, SVM или модель другого типа. На этом этапе будут выводиться вероятности классов.

Использование предварительно обученной модели

Одной из ключевых проблем, с которыми столкнется этот проект, является ограниченная доступность данных изображений, на которых можно обучать модель. Набор данных ImageNet в настоящее время содержит более 14 миллионов изображений, а обучать сеть придется на тысячах изображений. Основываясь на успехе моделей, использованных в описанных выше статьях, в этом предложении будет использоваться нейронная сеть, обученная на миллионах изображений, для извлечения функций, на которых можно обучить гораздо более простой индивидуальный классификатор.