Виола Джонс Эксперименты (обучающие наборы)

Сказано, что «4916 положительных обучающих примеров были отобраны вручную, выровнены, нормализованы и масштабированы до базового разрешения 24x24. 10 000 отрицательных примеров были отобраны случайным образом путем выбора подокна из 9500 изображений, не содержащих лиц». В статье «Надежное обнаружение лиц в реальном времени Пол Виола и Майкл Джонс»

Мой вопрос в том, что они имеют в виду под вручную подобранным выровненным, нормализованным и масштабированным до базового разрешения 24x24?

Означает ли "выровненное от руки" 4916 положительных изображений 4916 разных лиц? Означает ли «нормализованный», что каждое из 4916 изображений имеет одинаковые характеристики [размер файла, тип файла, цвет изображения (шкала серого / цветное)]? Означает ли «масштабирование до базового разрешения 24x24», что размер каждого из 4916 изображений изменен до 24x24 пикселей?

Спасибо за ваше время!


person Koji Ikehara    schedule 06.12.2012    source источник
comment
Предлагаю посмотреть презентацию cs.stevens.edu/~lxu1/CS559_data/ FaceDetection_final.pdf - хорошо описывает тренировочный процесс Виолы Джонс и способы его улучшения.   -  person Lyth    schedule 06.12.2012


Ответы (1)


Означает ли "выровненный вручную", что у них есть 4916 положительных изображений 4916 различных лиц?

Не обязательно отчетливо - но да, они дали 4916 разных фотографий лиц. Лица были обнаружены вручную «экспертом-человеком».

Означает ли «нормализованный», что каждое из 4916 изображений имеет одинаковые характеристики [размер файла, тип файла, цвет изображения (шкала серого / цветное)]?

Они использовали только полутоновые пиксели, нормализованные - это значит, что они убедились, что нет «черных» и «белых» изображений. Если изображение было очень темным - оно автоматически увеличивалось, а если было недостаточно темным - затемнялось. Это легко делается автоматическим компонентом.

Означает ли «масштабирование до базового разрешения 24x24», что размер каждого из 4916 изображений изменен до 24x24 пикселей?

Да, они убедились, что каждое «лицо» имеет размер 24x24 пикселя, применив некоторую обработку изображения.

person amit    schedule 06.12.2012
comment
Большое спасибо, Амит! Вы мне очень помогли. У меня есть еще несколько вопросов. Как они нормализовали каждый пиксель шкалы серого? Какой автоматический компонент они использовали? Наконец, какое обучение они использовали для создания каскадного файла (файла xml)? Я слежу за множеством обучающих руководств, но пока не могу создать хороший детектор (xml). - person Koji Ikehara; 07.12.2012
comment
@KojiIkehara: Я не такой. Обычно для новых вопросов - лучше всего помещать их как новые темы (если это не пояснения к предлагаемому ответу). - person amit; 07.12.2012
comment
Хорошо. Спасибо за совет. :) - person Koji Ikehara; 07.12.2012
comment
Я опубликую еще одну тему. Надеюсь, вы ответите на мои другие вопросы. Спасибо! - person Koji Ikehara; 07.12.2012
comment
Привет, вы можете взглянуть на мой новый тег по ссылке stackoverflow.com / questions / 13835311 /. Спасибо! - person Koji Ikehara; 12.12.2012