Виола Джонс Эксперименты (обучающие наборы)

Сказано, что «4916 положительных обучающих примеров были отобраны вручную, выровнены, нормализованы и масштабированы до базового разрешения 24x24. 10 000 отрицательных примеров были отобраны случайным образом путем выбора подокна из 9500 изображений, не содержащих лиц». В статье «Надежное обнаружение лиц в реальном времени Пол Виола и Майкл Джонс»

Мой вопрос в том, что они имеют в виду под вручную подобранным выровненным, нормализованным и масштабированным до базового разрешения 24x24?

Означает ли "выровненное от руки" 4916 положительных изображений 4916 разных лиц? Означает ли «нормализованный», что каждое из 4916 изображений имеет одинаковые характеристики [размер файла, тип файла, цвет изображения (шкала серого / цветное)]? Означает ли «масштабирование до базового разрешения 24x24», что размер каждого из 4916 изображений изменен до 24x24 пикселей?

Спасибо за ваше время!

Koji Ikehara 06.12.2012 источник

comment

Предлагаю посмотреть презентацию cs.stevens.edu/~lxu1/CS559_data/ FaceDetection_final.pdf - хорошо описывает тренировочный процесс Виолы Джонс и способы его улучшения. - Lyth 06.12.2012

Ответы (1)

arrow_upward
2
arrow_downward

Означает ли "выровненный вручную", что у них есть 4916 положительных изображений 4916 различных лиц?

Не обязательно отчетливо - но да, они дали 4916 разных фотографий лиц. Лица были обнаружены вручную «экспертом-человеком».

Означает ли «нормализованный», что каждое из 4916 изображений имеет одинаковые характеристики [размер файла, тип файла, цвет изображения (шкала серого / цветное)]?

Они использовали только полутоновые пиксели, нормализованные - это значит, что они убедились, что нет «черных» и «белых» изображений. Если изображение было очень темным - оно автоматически увеличивалось, а если было недостаточно темным - затемнялось. Это легко делается автоматическим компонентом.

Означает ли «масштабирование до базового разрешения 24x24», что размер каждого из 4916 изображений изменен до 24x24 пикселей?

Да, они убедились, что каждое «лицо» имеет размер 24x24 пикселя, применив некоторую обработку изображения.

amit 06.12.2012

comment

Большое спасибо, Амит! Вы мне очень помогли. У меня есть еще несколько вопросов. Как они нормализовали каждый пиксель шкалы серого? Какой автоматический компонент они использовали? Наконец, какое обучение они использовали для создания каскадного файла (файла xml)? Я слежу за множеством обучающих руководств, но пока не могу создать хороший детектор (xml). - Koji Ikehara; 07.12.2012

comment

@KojiIkehara: Я не такой. Обычно для новых вопросов - лучше всего помещать их как новые темы (если это не пояснения к предлагаемому ответу). - amit; 07.12.2012

comment

Хорошо. Спасибо за совет. :) - Koji Ikehara; 07.12.2012

comment

Я опубликую еще одну тему. Надеюсь, вы ответите на мои другие вопросы. Спасибо! - Koji Ikehara; 07.12.2012

comment

Привет, вы можете взглянуть на мой новый тег по ссылке stackoverflow.com / questions / 13835311 /. Спасибо! - Koji Ikehara; 12.12.2012

Виола Джонс Эксперименты (обучающие наборы)

Ответы (1)

Вопросы по теме