Введение в классификацию видео

Многие статьи и руководства по глубокому обучению в основном посвящены трем доменам данных: изображениям, речи и тексту. Эти домены данных популярны благодаря своим приложениям в классификации изображений, распознавании речи и классификации тональности текста. Еще одна очень интересная модальность данных - это видео. С точки зрения размерности и размера видео - один из самых интересных типов данных наряду с такими наборами данных, как социальные сети или генетические коды. Платформы для загрузки видео, такие как YouTube, собирают огромные наборы данных, расширяя возможности исследований в области глубокого обучения.

На самом деле видео - это просто стопка изображений. В этой статье будет обзор статьи [1] об исследовании классификации видео, проведенном Андреем Карпати, в настоящее время директором по искусственному интеллекту в Tesla.

Https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf

В этой статье видео моделируются со сверточными сетями очень похоже на моделирование изображений в CNN. Эта статья - отличный анекдот о мощной репрезентативной силе сверточных сетей. До этой работы в исследовании Video Classification преобладала цепочка визуальных словосочетаний, квантованных в словарь k-средних и классифицированных с помощью модели машинного обучения, такой как SVM. Эта работа подчеркивает способность CNN абстрагироваться от всех этих предыдущих алгоритмов проектирования функций. Документ также служит хорошей основой для идей по интеграции временной составляющей видео в модели CNN.

В этой статье исследуются три различных компонента классификации видео, проектирование сетей CNN, учитывающих временные связи в видео, сетей CNN с разными разрешениями, которые могут ускорить вычисления, и эффективности передачи обучения с помощью классификации видео.

Обсуждаемые наборы данных

Одним из наиболее важных компонентов любого проекта глубокого обучения является понимание используемого набора данных. В этой статье использовался набор данных, состоящий из 1 миллиона видеороликов YouTube в 487 классах. Эта статья также экспериментирует с переносом обучения из функций, изученных на этом массивном наборе данных, в меньший набор данных UCF-101, состоящий из 13 320 видео, принадлежащих к 101 категории.

Есть две непосредственные проблемы, связанные с используемыми наборами видеоданных. Во-первых, это огромный размер набора данных, что делает перспективу загрузки всего набора данных в локальную память непрактичной. Обходной путь для этого - использовать библиотеку синтаксического анализа URL-адресов для динамической загрузки видео по их ссылкам на YouTube и перезаписать видео, находящиеся в настоящее время в памяти, которые использовались в предыдущем размере пакета. Чтобы ускорить это, используется система параллельных вычислений, так что эти пакеты могут быть загружены и предварительно обработаны на отдельной машине, отличной от той, которая обучает модель. Karpathy et al. используйте вычислительный кластер для реализации этих экспериментов, который очень хорошо подходит для такого типа конвейера обработки данных.

Вторая проблема, связанная с этим набором данных, - это та, которая часто встречается в приложениях интеллектуального анализа текста, переменная длина каждого экземпляра. Например, одно видео может длиться 30 секунд, а другое - 2 минуты. В тексте это решается путем заполнения концов текста 0 таким образом, чтобы все входные данные имели одинаковую длину. В данной статье это делается путем прогнозирования посевов видео и агрегирования прогнозов для посевов. Я думаю, что это очень важная деталь статьи, о которой нужно помнить. Целые видеоролики не передаются в сеть, вместо этого они используют набор полусекундных клипов. Видео обычно записываются со скоростью 30 кадров в секунду. Таким образом, эти ролики состоят из 15 кадров.

Агрегирование прогнозов по полусекундным клипам - это концепция, аналогичная увеличению во время тестирования при классификации изображений. Прогнозирование класса для изображения комбинируется с предсказаниями того же изображения после того, как оно было повернуто, обрезано, обрезано или увеличено его цветовое пространство. В этих экспериментах с классификацией видео также проверяются возможности переворачивания и кадрирования с полусекундными клипами.

Слияние информации о времени

Какой шаблон временной связи в архитектуре CNN лучше всего подходит для использования информации о локальном движении, присутствующей в видео?

Как дополнительная информация о движении влияет на прогнозы CNN и насколько это улучшает производительность в целом?

Возможно, наиболее интересным предметом этой статьи является то, как классическая сверточная сеть модифицируется для учета временных зависимостей в видео. В этом документе стопка кадров соединяется друг с другом и вводится в CNN. Классически CNN принимает в качестве входных данных матрицу (высота x ширина x цветовые каналы). Например, это может быть входной тензор 224 x 224 x 3. В этих экспериментах предыдущие кадры накладываются на верхнюю часть оси цветового канала, так что вход, состоящий из двух кадров изображений в видео, имеет форму 224 x 224 x 6. Karpathy et al. предложите 3 различные стратегии для комбинирования фреймов в качестве входных данных для CNN и сопоставьте эти подходы с базовой моделью классификации фреймов по одному.

Модель Single Frame - это пример классификации видео путем простого агрегирования прогнозов по отдельным кадрам / изображениям. Модель Late Fusion объединяет кадры путем объединения первого и последнего кадра в клипе. Модель Early Fusion берет из клипа более крупный непрерывный сегмент. Наконец, модель Slow Fusion имеет гораздо более сложную схему, в которой 4 частично перекрывающихся смежных сегмента последовательно объединяются в сверточных слоях. Эксперименты показали, что наиболее успешным является стратегия Slow Fusion, хотя и не намного больше, чем у модели Single Frame. Наилучшие общие результаты были получены при усреднении результатов по всем моделям (однократная + ранняя + поздняя + медленная).

CNN с разным разрешением

Еще одна очень интересная концепция, обсуждаемая в этой статье, - это убедительная стратегия обработки изображений. CNN с несколькими разрешениями работает следующим образом: два отдельных входа подаются на отдельные сверточные слои, которые сливаются вместе после 2 изолированных последовательностей Conv-MaxPool-BatchNorm. Эти входные данные с несколькими разрешениями состоят из кадра 178 x 178, субдискретизированного до 89 x 89, и центрального кадра 89 x 89 исходного кадра 178 x 178.

Эта стратегия экономит много времени на вычисления для сверточных слоев. Авторы сообщают об увеличении скорости в 2–4 раза за счет этой схемы пониженной размерности. В частности, они указывают скорость 5 клипов в секунду для сети с полнокадровым просмотром и 20 клипов в секунду для сети с несколькими разрешениями. Они также подчеркивают, что это можно было бы еще больше ускорить, если бы использовать высокопроизводительный графический процессор, а не распараллеливать их вычислительный кластер с 10–50 репликами моделей. В дополнение к ускорению, он также сообщает о небольшом улучшении по сравнению с однокадровой моделью, которая принимает исходные кадры 178 x 178.

Передача обучения в классификации видео

Трансферное обучение в классификации изображений хорошо изучено и представляет собой очень интуитивно понятную концепцию. Обучитесь на массивном наборе данных, таком как ImageNet, 1,2 млн изображений, перенесите эти веса в проблему с меньшим объемом данных, а затем точно настройте веса в новом наборе данных. В этой статье Karpathy et al. перенести функции из набора данных Youtube-1M в популярный набор данных классификации видео, UCF-101. Они поэкспериментировали с 3 уровнями трансферного обучения и сравнили это с обучением с нуля на наборе данных UCF-101.

Изученные уровни трансферного обучения включали тонкую настройку верхнего уровня, тонкую настройку трех верхних слоев и тонкую настройку всех слоев. Например, при точной настройке верхнего уровня остальные веса в сети «замораживаются» во время обучения, что означает, что они участвуют только в прямом проходе сети, не обновляются через обратное распространение.

Из этой статьи повышение производительности за счет стратегий Time Fusion и Multi-Resolution несколько не впечатляет. Однако результаты трансферного обучения открывают глаза. Было бы интересно, если бы в этом отчете также были показаны результаты с однокадровой сетью, чтобы контрастировать, если бы схема медленного слияния была более эффективной для передачи обучения.

Заключение

Я был впечатлен результатами, показывающими, что схема Slow Fusion постоянно превосходит однокадровые модели. Направляясь к этой статье, я ожидал, что алгоритмы временного слияния будут состоять из функций CNN, введенных в рекуррентную модель, такую как LSTM. Я думаю, что дизайн Slow Fusion можно улучшить, просто удвоив размер смежных блоков, возможно, соединив смежные блоки, разделенные некоторым параметрическим числом кадров, и добавив остаточные соединения.

Я думаю, что обработка с несколькими разрешениями - очень интересная идея с изображениями и видео, которые также могут быть распространены на речь и аудио. Этот механизм в первую очередь предназначен для увеличения скорости вычислений с уменьшенным размером входных данных, однако я думаю, что было бы интересно инвертировать это и проверить точность классификации после повышающей дискретизации изображений с помощью техники сверхвысокого разрешения, такой как SR-GAN.

Отрадно видеть успех переноса обучения на изображения, распространенные на видео. Повышение точности UCF-101 почти на 25% после обучения на наборе данных YouTube-1M - шокирующе высокое!

Этот документ является отличной основой для изучения классификации видео. Он очень хорошо написан и обсуждает многие важные характеристики построения моделей глубокого обучения на видеоданных. Спасибо за прочтение, оставьте, пожалуйста, свой комментарий к статье или к этой статье!

Ссылка

[1] Андрей Карпати, Джордж Тодеричи, Санкет Шетти, Томас Люнг, Рахул Суктанкар, Ли Фей-Фей. Масштабная классификация видео с помощью сверточных нейронных сетей. 2014 г.