Система координат для Faster / Fast RCNN

Я тренировал Faster RCNN на пользовательском наборе данных, но с некоторыми аномальными результатами. Производительность сети ухудшается для данных проверки и обучения ботов с увеличением количества итераций обучения. Хотя убыток уменьшается, что удивительно. Цель - обнаружить листья.

Ниже представлены изображения на 200 и 165000 итерациях соответственно.

Вывод при 200 итерациях

вывод при 165000 итераций

Здесь следует отметить, что после 165000 итераций сеть также начинает рисовать прямоугольники в фоновом режиме.

Я думаю, это из-за некоторой ошибки в аннотациях к обучающим данным, так как потери уменьшаются с обучением.

Файл аннотаций, который я сделал, имеет систему координат, аналогичную matlab, то есть (0,0) как верхний левый угол изображения, и, таким образом, для каждого ограничивающего прямоугольника верхний левый угол равен (x_min, y_min), а нижний правый - (x_max, y_max) . Так ли это должно быть, если так, то в чем еще может быть проблема?


person Tanvir    schedule 27.05.2016    source источник


Ответы (1)


В документе Faster R-CNN прямоугольники и якоря кодируются как x_center, y_center, width и height. Я думаю, это также зависит от вашего выбора кодирования якорей. Если вы использовали код из исходной публикации, я думаю, вам следует реорганизовать блоки, как описано в документе.

Для регрессии ограничивающей рамки мы принимаем параметризацию 4 координат согласно [5]:

[...]

Где x, y, w и h обозначают координаты центра прямоугольника, его ширину и высоту. Переменные x, xa и x ∗ относятся к предсказанному блоку, якорному блоку и наземному блоку истины соответственно (аналогично для y, w, h).


Источник: страница 5 документа https://arxiv.org/pdf/1506.01497v3.

person Mike    schedule 04.12.2016