На этой неделе мы получили первые результаты тестирования с помощью наивного байесовского классификатора для выбора наиболее подходящих функций изображения.

Выбор наиболее подходящих функций

Чтобы начать использовать сложные модели для классификации живописи, мы воспользовались преимуществами наивного байесовского классификатора при выборе наиболее подходящих функций для нашего набора данных. На данный момент были протестированы три функции изображения: Hu Moments, GIST, цветовая гистограмма. Каждая функция сначала тестировалась индивидуально, а затем в комбинациях. Немасштабированные функции изображения, которые мы извлекли, могут привести к неправильной классификации, поскольку функции с широким диапазоном определяют другие функции. Однако на классификаторы, не основанные на расстоянии, масштабирование признаков не влияет, и наивный байесовский классификатор является одним из таких алгоритмов.

Ху Моменты

Моменты Ху — это хорошо известные функции изображения, которые можно использовать для определения, классификации и измерения формы объекта на изображении, а также их можно рассчитать по контуру объекта на изображении.

Моменты Ху (или, точнее, инварианты момента Ху) — это набор из 7 чисел, рассчитанных с использованием центральных моментов, инвариантных к преобразованиям изображения. Доказано, что первые 6 моментов инвариантны к перемещению, масштабированию, вращению и отражению. При этом знак 7-го момента меняется на отражение изображения. — Ху Моменты / OpenCV

Цветовая гистограмма

Цветовая гистограмма используется для отображения распределения цветов в изображении. Он отображает частотное распределение цветового бина, отслеживает идентичные пиксели и сохраняет их.

СУТЬ

Дескриптор GIST суммирует детали градиента для различных частей изображения, что приводит к грубому описанию сцены, которое помогает охарактеризовать изображение со значительной статистикой.

Результаты теста

В свете результатов тестирования, которые мы получили с помощью наивного байесовского классификатора, точность классификации в нашем наборе данных колеблется в пределах 70–90%. Это изменение может быть вызвано дисбалансом в классах данных. Снизить процент ошибочных классификаций можно за счет использования аугментации данных с помощью различных процедур: обрезки, поворота, случайного стирания.

Несмотря на то, что масштабирование функций не использовалось на начальном этапе, оно будет применяться к нашим функциям в процессе развертывания современных моделей.

Быть в курсе…