Я обучаю свою мобильную сеть v3 с помощью tfrecords, созданных с помощью модели тензорного потока . Потери в обучении относительно шагов показаны ниже. Длина блока по оси x составляет 20 тыс. Шагов (примерно 2 эпохи из-за размера пакета = 128 и всего 1281167 отсчетов).
Скорость обучения экспоненциально затухает 0,01 каждые 3 эпохи с лестницей, и потери обычно падают в первые 4 эпохи. Однако убытки растут и падают каждую эпоху после 4-й эпохи. Я пробовал оптимизатор импульса (окрашен оранжевым) и оптимизатор rmsprop (окрашен синим), затем получил аналогичные результаты. Пожалуйста, помогите мне решить эту проблему.