Не было недостатка в превосходных исследованиях компьютерного зрения, представленных на недавно завершившейся конференции CVPR 2020 года. В этой статье мы подробно рассмотрим несколько из них, которые касаются мобильных или периферийных задач или имеют значение для них. Хотя не все эти документы напрямую связаны с мобильными приложениями, их значение для мобильного машинного обучения имеет большое значение. Они продвигают задачи машинного обучения, которые обычно выполняются на мобильных и периферийных устройствах, поэтому их развитие имеет решающее значение для продвижения отрасли вперед.

Перцепционная оценка качества фотографии на смартфон

Авторы этой статьи провели углубленное исследование оценки качества восприятия фотографии смартфона. Они также представили базу данных атрибутов и качества фотографии смартфонов (SPAQ). База данных содержит 11 125 снимков, сделанных 66 смартфонами. Каждое из изображений снабжено обширными аннотациями.



Авторы также собрали человеческие мнения для каждого изображения. Некоторая собираемая информация включает качество изображения, атрибуты изображения, атрибуты изображения и метки категорий сцены. Для более глубокого анализа они также записали формат файла сменного изображения (EXIF) для каждого изображения. Затем они использовали базу данных для обучения моделей оценки качества слепых изображений (BIQA), построенных с помощью базовых и многозадачных глубоких нейронных сетей. Полученные результаты дают представление о:

  • как данные EXIF, атрибуты изображения и семантика высокого уровня взаимодействуют с качеством изображения
  • как можно разработать модели BIQA следующего поколения
  • как оптимизировать системы компьютерной фотографии на мобильных устройствах

Модели и базу данных BIQA можно найти здесь:



Вот сравнение оценки качества изображения - IQA - базы данных искажений камеры.

Оценка положения шарнирного объекта на уровне категории

В этой статье авторы погрузились в задачу оценки позы на уровне категорий для артикулированных объектов на основе изображения с одной глубиной. Они предложили подход на уровне категорий, который включает экземпляры объектов, ранее невидимые во время обучения. Они представили каноническое представление для различных сочлененных объектов в данной категории - Иерархия нормализованного координатного пространства с учетом артикуляции (ANCSH)



Представление строит канонические объектные пространства и набор канонических пространств частей для достижения внутрикатегорийного обобщения. Далее авторы разработали глубокую сеть на базе PointNet ++.



Сеть прогнозирует ANCSH из облака точек с одной глубиной. Использование канонических суставов позволило авторам добиться:

  • улучшенная производительность при оценке позы и масштаба детали с использованием наведенных кинематических ограничений из суставов
  • высокая точность совместной оценки параметров в пространстве камеры

На рисунке ниже показано сравнение оценки совместных параметров.

KFNet: обучение перемещению временной камеры с помощью фильтрации Калмана

В отличие от однократного перемещения, которое оценивает позу путем фокусировки на неподвижном изображении, временное перемещение камеры оценивает позу относительно каждого видеокадра в последовательности. В этой работе авторы стремятся улучшить способность оценки позы методов временной релокализации.



Они делают это с помощью сетевой архитектуры, которая включает фильтрацию Калмана (KFNet) для изменения локализации онлайн-камеры. Дизайн сети и потери основаны на фильтрации Калмана в контексте байесовского обучения.



KFNet устраняет разрыв в производительности между методами временной и однократной локализации. Авторы также предлагают инструмент статистической оценки, позволяющий KFNet самостоятельно проверять прогнозы потенциальных выбросов на лету.

Ниже представлено наглядное изображение средних ошибок сдвига и вращения при различных методах перемещения.

Вот сравнение точности одноразового и временного.

EventCap: Монокулярная 3D-съемка высокоскоростных движений человека с помощью камеры событий

В этой статье предлагается EventCap, подход к 3D-захвату движений человека на высокой скорости с использованием одной камеры. Детали высокочастотного движения фиксируются с помощью оптимизации на основе модели и оценки позы человека на основе CNN.



Авторы смогли запечатлеть быстрые движения с разрешением в миллисекунды с более высокой эффективностью обработки данных по сравнению с использованием видео с высокой частотой кадров.

Авторы разрабатывают алгоритм захвата движения, который использует поток событий и поток изображений с низкой частотой кадров и интенсивностью изображения с камеры событий в рамках совместной оптимизации. Это происходит в следующие этапы:

  • Асинхронное отслеживание событий в 2D-пространстве и восстановление непрерывных пространственно-временных траекторий событий между каждыми соседними кадрами изображения яркости.
  • Оценка трехмерного движения человека-актера с использованием алгоритма пакетной оптимизации.
  • Уточнение зафиксированного высокоскоростного движения на основе информации о границах, полученной из асинхронного потока событий.

Дрейф решается за счет использования отслеживаемых траекторий событий и оценки позы в 2D и 3D на основе CNN по изображениям интенсивности.

Авторы также предлагают набор оценочных данных для быстрого захвата движений человека с помощью камеры событий.

Вот сравнение нескольких методов с точки зрения точности отслеживания и пропускной способности данных по сравнению с методом, предложенным в этой статье.

RetinaFace: одноразовая многоуровневая локализация лица в дикой природе

Авторы представляют RetinaFace - одноразовый многоуровневый метод локализации лица. Они также вручную аннотируют пять лицевых ориентиров из набора данных WIDER FACE и используют полуавтоматический конвейер для генерации трехмерных вершин для изображений лиц из наборов данных WIDER FACE, AFLW и FDDB.



Авторы комбинируют предсказания ограничивающего прямоугольника лица, локализацию двухмерных ориентиров на лице и трехмерную регрессию вершин для достижения точечной регрессии на плоскости изображения.

Они также предлагают стратегию обучения для обучения унифицированному многоуровневому методу локализации лица, который одновременно прогнозирует ограничивающие рамки лица, пять двумерных ориентиров на лице и 1000 трехмерных вершин.

FReeNet: реконструкция лица с несколькими идентичностями

В этой статье предлагается FReeNet - фреймворк для воссоздания лиц с множеством идентичностей. Он передает выражения лица с исходного лица на другое лицо с общей моделью. Предлагаемая структура состоит из двух частей:

  • Унифицированный преобразователь ориентиров (ULC), использующий архитектуру кодировщика-декодера для преобразования выражений в пространстве скрытых ориентиров. Это уменьшает разрыв контура лица между исходным и целевым изображениями.
  • Генератор с учетом геометрии (GAG) использует преобразованный ориентир для воссоздания фотореалистичного изображения, учитывая изображение целевого человеческого лица в качестве эталона.


Авторы также предлагают новую тройную потерю восприятия, которая заставляет модуль GAG изучать информацию о внешнем виде и геометрии одновременно. Это обогащает лицевые детали воспроизведенных изображений. Потеря образуется в результате сочетания потери триплета и потери восприятия.

Есть две основные проблемы с воспроизведением лица - во-первых, преобразование мультиличностного выражения лица с помощью единой сети и воссоздание фотореалистичных и согласованных с идентичностью лиц целевых лиц - при сохранении позы, оттенка и освещение при этом.

Разрывы в контурах лица между источником и лицом цели также создают серьезные проблемы. Чтобы решить эти проблемы, авторы используют детектор ориентиров для кодирования лиц в скрытое пространство ориентиров.

Модуль преобразования ориентиров используется для преобразования исходного изображения в целевого человека в пространстве скрытых ориентиров. Генератор с учетом геометрии извлекает геометрическую информацию из преобразованного пространства ориентира и информацию о внешнем виде из преобразованного ориентира. Он также извлекает информацию о внешности от эталонного человека, чтобы воспроизвести целевое лицо.

Вот некоторые результаты, полученные с помощью предлагаемого метода:

Последняя мысль

Если эти статьи вас заинтересовали, значит, вам повезло! Есть еще много всего, откуда это взялось, на случай, если вы захотите изучить дальше:



Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.