Виола-Джонс — что означает окно 24x24?

Я изучаю структуру обнаружения Виолы-Джеймса и читал, что она использует базовое окно обнаружения 24x24[1][2]. У меня проблемы с пониманием этого окна обнаружения базы. Допустим, у меня есть изображение размером 1280х960 пикселей и на нем 3 человека. Когда я попытаюсь выполнить распознавание лиц на этом изображении, алгоритм:

  1. Уменьшите изображение до 24x24 пикселей,
  2. Разложите изображение на большие участки размером 24x24 пикселя, а затем протестируйте каждый участок.
  3. Расположите окно 24x24 в левом верхнем углу изображения, а затем переместите его на 1 пиксель по всей области изображения?

Любая помощь приветствуется, даже ссылка на другое объяснение.

Источник: https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf

[1] - страница 2, последний абзац перед интегральными изображениями

[2] - стр. 4, Результаты


person Mateo Velenik    schedule 11.08.2015    source источник


Ответы (2)


Это видео помогает? Он длится 40 минут.

Адам Харви объясняет принцип распознавания лиц Виолы-Джонс

Алгоритм, также называемый каскадом Хаара, очень популярен для распознавания лиц.

Примерно на полпути вниз по этой странице находится еще одно видео, в котором показано сверхзамедленное сканирование, чтобы вы могли видеть, как Окно начинается с малого (хотя в демонстрационных целях намного больше, чем 24x24) и перемещается по изображению пиксель за пикселем, затем делает это снова и снова на все более крупных квадратных участках. На каждом этапе он по-прежнему смотрит только на эти окна, как если бы они были передискретизированы до размера 24x24.

Вы также можете видеть, как он быстро отклоняет многие из этих окон и проводит большую часть своего времени в областях, которые кажутся похожими на лица, в то время как он вычисляет все более и более сложные сравнения, которые становятся все более строгими. Здесь в игру вступает термин «каскад».

person Octopus    schedule 11.08.2015
comment
спасибо, видео помогло. Я отмечаю ваш ответ как правильный, не могли бы вы также добавить ссылку, которую я дал в своем ответе? - person Mateo Velenik; 24.08.2015

Я нашел это видео, которое прекрасно объясняет, как перемещается и масштабируется окно обнаружения на изображении. Я хотел нарисовать блок-схему, как это выглядит, но я думаю, что видео иллюстрирует это лучше:

https://vimeo.com/12774628

Кредиты оригинальному автору видео.

person Mateo Velenik    schedule 24.08.2015