Я изучаю структуру обнаружения Виолы-Джеймса и читал, что она использует базовое окно обнаружения 24x24[1][2]. У меня проблемы с пониманием этого окна обнаружения базы. Допустим, у меня есть изображение размером 1280х960 пикселей и на нем 3 человека. Когда я попытаюсь выполнить распознавание лиц на этом изображении, алгоритм:
- Уменьшите изображение до 24x24 пикселей,
- Разложите изображение на большие участки размером 24x24 пикселя, а затем протестируйте каждый участок.
- Расположите окно 24x24 в левом верхнем углу изображения, а затем переместите его на 1 пиксель по всей области изображения?
Любая помощь приветствуется, даже ссылка на другое объяснение.
Источник: https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf
[1] - страница 2, последний абзац перед интегральными изображениями
[2] - стр. 4, Результаты