Виола-Джонс — что означает окно 24x24?

Я изучаю структуру обнаружения Виолы-Джеймса и читал, что она использует базовое окно обнаружения 24x24[1][2]. У меня проблемы с пониманием этого окна обнаружения базы. Допустим, у меня есть изображение размером 1280х960 пикселей и на нем 3 человека. Когда я попытаюсь выполнить распознавание лиц на этом изображении, алгоритм:

Уменьшите изображение до 24x24 пикселей,
Разложите изображение на большие участки размером 24x24 пикселя, а затем протестируйте каждый участок.
Расположите окно 24x24 в левом верхнем углу изображения, а затем переместите его на 1 пиксель по всей области изображения?

Любая помощь приветствуется, даже ссылка на другое объяснение.

Источник: https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf

[1] - страница 2, последний абзац перед интегральными изображениями

[2] - стр. 4, Результаты

viola-jones

Mateo Velenik 11.08.2015 источник

Ответы (2)

arrow_upward
1
arrow_downward

Это видео помогает? Он длится 40 минут.

Адам Харви объясняет принцип распознавания лиц Виолы-Джонс

Алгоритм, также называемый каскадом Хаара, очень популярен для распознавания лиц.

Примерно на полпути вниз по этой странице находится еще одно видео, в котором показано сверхзамедленное сканирование, чтобы вы могли видеть, как Окно начинается с малого (хотя в демонстрационных целях намного больше, чем 24x24) и перемещается по изображению пиксель за пикселем, затем делает это снова и снова на все более крупных квадратных участках. На каждом этапе он по-прежнему смотрит только на эти окна, как если бы они были передискретизированы до размера 24x24.

Вы также можете видеть, как он быстро отклоняет многие из этих окон и проводит большую часть своего времени в областях, которые кажутся похожими на лица, в то время как он вычисляет все более и более сложные сравнения, которые становятся все более строгими. Здесь в игру вступает термин «каскад».

Octopus 11.08.2015

comment

спасибо, видео помогло. Я отмечаю ваш ответ как правильный, не могли бы вы также добавить ссылку, которую я дал в своем ответе? - Mateo Velenik; 24.08.2015

arrow_upward
1
arrow_downward

Я нашел это видео, которое прекрасно объясняет, как перемещается и масштабируется окно обнаружения на изображении. Я хотел нарисовать блок-схему, как это выглядит, но я думаю, что видео иллюстрирует это лучше:

https://vimeo.com/12774628

Кредиты оригинальному автору видео.

Mateo Velenik 24.08.2015

Виола-Джонс — что означает окно 24x24?

Ответы (2)

Вопросы по теме