В последние годы глубокое обучение сыграло важную роль в улучшении визуального распознавания отдельных экземпляров, например, в обнаружении объектов и оценке позы. Однако распознавание отдельных объектов — это лишь первый шаг машин к пониманию визуального мира. Чтобы понять, что происходит на изображениях, также необходимо выявить отношения между отдельными экземплярами.

С практической точки зрения фотографии, на которых изображены люди, составляют значительную часть ежедневных загрузок в Интернет и на сайты социальных сетей, и, таким образом, понимание, ориентированное на человека, имеет значительный спрос на практике. Мелкая детализация действий человека и их взаимодействия с широким спектром типов объектов представляет собой новую проблему по сравнению с распознаванием категорий объектов начального уровня.

Идея состоит в том, чтобы представить ориентированную на человека модель для распознавания взаимодействия человека с объектом. Центральным наблюдением является внешний вид человека, который показывает его действия и позы, очень информативен для вывода о том, где находится целевой объект. взаимодействие может быть локализовано. Таким образом, пространство поиска целевого объекта может быть сужено с учетом этой оценки. Хотя часто обнаруживается много объектов, предполагаемое целевое местоположение может помочь модели быстро выбрать правильный объект, связанный с конкретным действием.

Фреймворк Faster R-CNN используется для моделирования человекоориентированной ветви распознавания. В частности, в области интереса (RoI), связанной с человеком, эта ветвь выполняет классификацию действий и оценку плотности для местоположения целевого объекта действия. Оценщик плотности прогнозирует 4-мерное распределение Гаусса для каждого типа действия, которое моделирует вероятное положение целевого объекта относительно человека. Предсказание основано исключительно на внешнем виде человека. Эта ориентированная на человека ветвь распознавания вместе со стандартной ветвью обнаружения объектов и ветвью простого парного взаимодействия образуют многозадачную систему обучения, которую можно совместно оптимизировать.

Архитектура модели

Модель состоит из:

  • ветвь обнаружения объектов;
  • человекоцентричная ветвь;
  • необязательная ветвь взаимодействия.

Характеристики человека и их слои совместно используются ветвями, ориентированными на человека, и ветвями взаимодействия (синие прямоугольники).

Цель состоит в том, чтобы обнаружить и распознать триплеты формы (человек, глагол, объект). Решением этой проблемы является расширение Fast R-CNN дополнительной ветвью, ориентированной на человека, которая классифицирует действия и оценивает плотность вероятности по местоположению целевого объекта для каждого действия. Ориентированная на человека ветвь повторно использует функции, извлеченные Fast R-CNN для обнаружения объектов, поэтому ее предельные вычисления являются легкими. В частности, учитывая набор блоков-кандидатов, Fast R-CNN выводит набор блоков объектов и метку класса для каждого блока. Модель расширяется путем присвоения тройной оценки S парам блоков-кандидатов человек/объект b(h), b(o) и действию a. Триплетная оценка разбивается на четыре слагаемых.

Хотя модель состоит из нескольких компонентов, основная идея проста. s(h)и s(o) — это баллы класса от Fast R-CNN для b(h) и b( o) содержащий человека и объект.

Обнаружение объекта

Ветвь обнаружения объектов сети, показанная на рисунке 1, идентична ветви Faster R-CNN.

Классификация действий

Первая роль ветки, ориентированной на человека, заключается в назначении оценки классификации действий s(a, h) каждой ячейке человека b(h) и действию a. . Цель обучения — свести к минимуму потери бинарной перекрестной энтропии между наземными метками действий и оценками s(a, h), предсказанными моделью.

Целевая локализация

Вторая роль ветки, ориентированной на человека, заключается в прогнозировании местоположения целевого объекта на основе внешности человека (опять же представленного в виде функций, объединенных из b(h)). Этот подход прогнозирует плотность возможных местоположений и использует эти выходные данные вместе с местоположением фактически обнаруженных объектов для точной локализации цели. Смоделировать плотность расположения целевого объекта в виде функции Гаусса, среднее значение которой прогнозируется на основе внешнего вида человека и выполняемых действий. Формально ветвь, ориентированная на человека, предсказывает µ(a,h),среднее 4-мерное местоположение целевого объекта с учетом человеческого прямоугольника b(h) и действия а. Целевая локализация выглядела так:

gможно использовать для проверки совместимости блока объекта b(o) и прогнозируемого целевого местоположенияµ(a,h).

Распознавание взаимодействия

Ориентированная на человека модель оценивает действия, основанные на внешности человека. Несмотря на эффективность, это не учитывает внешний вид целевого объекта. Чтобы улучшить дискриминационную способность модели и продемонстрировать гибкость структуры, s(a, h) заменяется ветвью взаимодействия, которая оценивает действие на основе внешнего вида как человека, так и целевого объекта. .

Модель первой обучает набор COCO (исключая val-образы V-COCO). Эта модель, которая по сути является Faster R-CNN, имеет 33,8 точки доступа для обнаружения объектов в наборе значений COCO. InteractNet имеет AP (роль) 40,0, оцененную для всех классов действий в тестовом наборе V-COCO, а также в наборе данных HICO-DET. Это абсолютный прирост на 8,2 балла по сравнению с сильным базовым показателем в 31,8 балла, что является относительным улучшением на 26%. Результат показан в таблице ниже.

Результат

В исследовании рассматривается проблема задачи обнаружения человеческого объекта. Предлагаемый подход правильно обнаружил тройки одного человека, выполняющего несколько действий над несколькими объектами. Более того, InteractNet может обнаруживать несколько экземпляров взаимодействия на изображении. На рисунках ниже показаны два тестовых изображения со всеми обнаруженными триплетами.

Муниб Уль Хассан