В конце введения в это поучительное соревнование Kaggle, они заявляют, что методы, использованные в "Viola и Основополагающая статья Джонса работает достаточно хорошо». Однако в этой статье описывается система бинарного распознавания лиц, и проблема заключается в классификации ключевых точек, а не целых изображений. Мне трудно понять, как именно я буду настраивать систему Виолы/Джонса для распознавания ключевых точек.
Я предполагаю, что мне следует обучить отдельный классификатор для каждой ключевой точки, и у меня есть некоторые идеи:
перебирать части изображения фиксированного размера и классифицировать каждое из них, где изображение с ключевой точкой в качестве центрального пикселя является положительным примером. В этом случае я не уверен, что буду делать с пикселями, близкими к краю изображения.
вместо обучения бинарных классификаторов обучайте классификаторы с l*w возможными классами (по одному на каждый пиксель). Большая проблема с этим заключается в том, что я подозреваю, что он будет чрезмерно медленным, поскольку каждый слабый классификатор внезапно должен выполнять l*w*оригинальных операций.
третья идея, которая у меня есть, не полностью укладывается в моем уме, но, поскольку каждая ключевая точка является частью большей части лица (например, левого и правого центра глаза), возможно, я мог бы попытаться классифицировать под- изображения как просто глаз, а затем используйте левый, правый и центральный пиксели (с центром по координате y) наиболее подходящего фрагмента изображения для каждой части лица.
Есть ли какая-то ценность в этих идеях, и есть ли методы, о которых я не подумал?