Аннотация:

В этой статье я углубился в феномен двух знаменитостей, которые похожи друг на друга, в данном случае Джессики Честейн и Брайс Даллас Ховард, в качестве примера использования для разработки достаточно сложного алгоритма, позволяющего различать лицевые области людей, которые сбивают с толку даже людей. Нейронные сети являются наиболее сложным дискриминатором из возможных в настоящее время, учитывая ту же вычислительную мощность, более важным является качество данных, подаваемых в CNN. Здесь каждое изображение актрисы было преобразовано в свои представления фильтров Габора, каждое из которых имеет 16 фильтров Габора разной ориентации. Фильтры Габора кажутся наиболее сложным методом извлечения признаков для биологических изображений, поскольку они улавливают мелкие детали текстуры. Обученный CNN мог предсказать правильное имя знаменитости примерно в 80% случаев. Было обнаружено, что CNN точнее описал актрису, у которой с течением времени наблюдались наименьшие колебания веса. Можно сделать вывод, что обучение CNN на представлении Габора человеческого лица было действенной гибридной техникой для распознавания лиц, при условии, что ему давали наиболее обновленное представление лица.

Введение:

Распознавание лиц - интересная область современного компьютерного зрения, поскольку лицо даже не является самым отличительным биометрическим параметром человека; наиболее точными дискриминаторами являются узоры радужной оболочки глаза или отпечатки пальцев. Однако такие точные данные не всегда добровольно предоставляются интересующими субъектами, поэтому значительные исследования были посвящены методам выделения черт человеческого лица, которые достаточно отчетливы, чтобы различать людей.

Судя по текущим ссылкам, гибридные подходы дают лучшие результаты. В [1] методы PCA + CNN или SOM + CNN превосходят метод собственных граней даже при меньшем размере выборки. Более того, методы вейвлет-разложения, будь то преобразование Хаара или биортогональное преобразование, кажутся лучшим методом извлечения признаков для захвата нюансированных текстур биологических изображений, таких как человеческое лицо [2]. Из всех этих фильтров наиболее надежными являются фильтры Габора. Состав банка фильтров Габора [3] учитывает масштабные и ориентационные вариации в биологических текстурах, не улавливаемые другими вейвлет-преобразованиями.

В этой статье делается попытка ответить на вопрос: если я объединю наиболее сложное частотное разложение, фильтр Габора, с методом машинного обучения, который превосходит все остальное: сверточной нейронной сетью [6], могу ли я разработать систему, достаточно хорошую, чтобы различать два лица, которые легко спутать друг с другом (см. рис. 1 для сравнения актрис)?

Методы:

Для каждой актрисы в Google были собраны примерно 200 изображений каждое, загруженных с помощью надстройки Chome: Fatkun Batch Downloader. Я выбрал это приблизительное число, потому что мой профессор сказал мне, что мне нужно как минимум 80 изображений на класс. Я использовал записную книжку Python Jupyter для создания системы. Изображения были повторены с помощью встроенного алгоритма обнаружения лиц от OpenCV, который использует каскад Хаара, обеспечивающий многомасштабное обнаружение [4]. Очевидно, что функция использует уникальные хроматические значения кожи для обнаружения, такие как YCbCr [5], поскольку иногда рука или грудь обрезаются. Обрезанные изображения затем обрабатывались вручную, чтобы исключить нежелательные образцы, чтобы получить высококачественный обучающий набор.

Затем для каждой обрезанной грани был сгенерирован банк фильтров Габора. Банк состоит из 16 вариаций разной ориентации; значения других параметров остаются неизменными из-за отсутствия вариаций масштаба в обрезанной области лица. Стандартное отклонение было получено из расчета среднего стандартного отклонения обучающего набора, которое составило 3. Размер ядра установлен в 10 раз больше стандартного отклонения, 30. 16 различных ориентаций - это 16 делений в пределах π. Лямбда, длина синусоидальной волны установлена ​​на 4, Гамма, которая управляет высотой фильтра Габора, установлена ​​на 0,04; чем меньше гамма, тем выше Габор. Psi, фазовый сдвиг установлен на π / 4 (см. Рис. 2 для пошагового выполнения процедуры и визуального представления банка фильтров Габора).

Для маркировки изображений использовалось одно горячее кодирование, при этом [1,0] добавлялось к каждому фильтру Габора, принадлежащему Брайсу Далласу, и [0,1] к фильтру Джессики. Затем каждое представление Gabor было преобразовано в его серую копию и уменьшено до 64x64. После маркировки и изменения размера изображения складываются и перемешиваются. Перед подачей в CNN изображения отделяются от меток. Во время обучения CNN оценивается по ее способности правильно сопоставить изображение с его правильной меткой.

Использовался относительно классический CNN. Он имеет 3 сверточных слоя, за которыми следуют 2 плотных слоя. Dropout, вероятность того, сколько узлов случайно отключено, чтобы избежать переобучения, 0,25 и 0,5 были применены к последним двум плотным слоям соответственно. Скорость обучения, скорость, с которой веса корректируются относительно градиента потерь, установлена ​​на 0,001. Оптимизатор Adam используется для функции адаптивной оптимизации (см. Рис. 3).

Модель обучалась за 50 эпох. Он относительно быстро достиг высокой точности (см. Рис. 4).

Результаты:

Я решил использовать разделение 80:20 между обучающим набором и набором для тестирования, поэтому я составил тестовый набор из 40 изображений для каждой актрисы. Для наглядности я не стал тасовать набор для тестирования. Прогнозы модели для Брайс Даллас были неплохими (см. Рис. 5).

Результаты для Джессики немного лучше (см. Рис. 6).

В целом модель имеет точность примерно 80% (см. Рис. 7, где представлена ​​матрица неточностей).

Обсуждение:

Может ли комбинация банка фильтров Габора и CNN создать систему, способную различать двух людей, похожих друг на друга? Согласно этому эксперименту, это определенно правильный подход. Сложные алгоритмы определенно могут распознавать отдельные лица на основе извлечения признаков. Ограничением этого эксперимента является ограниченный объем данных. Средний конкурс изображений Kaggle будет иметь намного больше данных, чем этот. Качество изображений из интернета тоже не идеальное. Один интересный вывод заключается в том, что результаты для Брайс Даллас Ховард менее точны; при дальнейших исследованиях я обнаружил, что она сильно прибавила в весе, и некоторые из этих фотографий попали в тренировочный набор. В будущем я хотел бы добавить форму как функцию для обучения CNN дальнейшей точной настройке ее точности.

Вывод:

При наличии достаточной вычислительной мощности, правильного алгоритма и качественных данных компьютеры определенно могут отличить людей друг от друга. Несмотря на то, что отпечатки пальцев и рисунок радужной оболочки остаются лучшими функциями для идентификации людей, извлечение нужных черт лица с последующим использованием нейронных сетей представляет собой альтернативу для идентификации людей. Учитывая ограниченные данные и вычислительные мощности, извлечение правильных функций по-прежнему имеет первостепенное значение. Здесь показано, что использование фильтров Габора для извлечения текстур лица в 16 ориентациях дало достойные результаты. Это показывает, что обучение нейронной сети наиболее важным функциям, будь то текстуры или формы, перевешивает наличие огромного размера данных.

Ссылки:

[1] Суджата Г. Бхеле и В. Х. Манкар. Обзорная статья о методах распознавания лиц. Международный журнал перспективных исследований в области компьютерной инженерии и технологий (IJARCET) Том 1, выпуск 8, октябрь 2012 г.

[2] Паллави Д. Вадкар, Мегха Ванкхэйд. Распознавание лиц с использованием дискретных вейвлет-преобразований. Международный журнал передовых инженерных технологий, том III / выпуск I, январь-март 2012 г.

[3] Шаньчжэнь Луань, Баочан Чжан, Сиюэ Чжоу, Чен Чен, Чжунгун Хан. Сверточные сети Габора. В arXiv: 1705.01450v3, 29 января 2018 г.

[4] Р. Падилья, К. Ф. Ф. Коста Филью и М. Г. Ф. Коста. Оценка каскадных классификаторов Хаара, предназначенных для распознавания лиц. Международный журнал компьютерной и информационной инженерии Всемирной академии наук, инженерии и технологий, Том 6, № 4, 2012 г.

[5] Шрути Д. Патравали, Дж. М. Ваякуле, Апурва Д. Катре. Сегментация кожи с использованием цветовых моделей YCBCR и RGB. Международный журнал перспективных исследований в области компьютерных наук и программной инженерии, том 4, выпуск 7, июль 2014 г.

[6] Б.Гопика, К.Срилакшми, Д.Алекхья, Б.Бхаскар Рао, Б.Рама Мохан. Распознавание лиц с помощью извлечения функций Габора и нейронных сетей. Журнал электроники и техники связи, том 10, выпуск 2, вер. II (март - апрель 2015 г.), PP 68–72.