Я пытаюсь обучить модель для задачи бинарной классификации с изображениями в инфракрасном свете (температура) с помощью одноканального изображения. После преобразования их в три канала (реплицируя третий канал) я попробовал две архитектуры CNN, VGG-11 и VGG-16, но не смог получить стабильное обучение (низкая точность и через 2-10 эпох (в зависимости от при корректировке скорости обучения) потеря фиксируется в некотором значении.
Используется стандартная архитектура VGG, за исключением AdaptiveAvgPool2d()
, которая используется сначала для облегчения ввода произвольного размера. Размер изображения на входе - 340x340.
CrossEntropyLoss()
используется с метками [0,1], выводимыми из указанной выше сети. Кроме того, модель обучается с нуля (из-за характера данных).
Есть ли идеи по улучшению моей архитектуры в соответствии с моей проблемой? Я не нашел много работ по классификации инфракрасных изображений, поэтому я буду очень признателен за любую помощь.