У меня есть сеть декодера кодировщика с: 3 BLSTM в кодировщике и 2 ванильными LSTM в декодере, связанными с общим вниманием с 4 узлами. Скрытый размер равен 32, и моя общая выборка выглядит как (10 000 400 128). В сети кодировщика выпадение составляет 0,2, а для декодера - 0,3. Я использую оптимизатор Адама со скоростью обучения 0,001 и среднеквадратичной потерей ошибок. Наконец, у меня есть разделение валидации 0,3. Я арендовал Nvidia Titan V (с Core ™ i9-9820X, 5,0 / 20 ядер и 16/64 ГБ общей эффективной общей оперативной памяти) на Vast.ai, и на каждую эпоху у меня уходит ~ 6 минут, когда я тренирую все вместе (7000 поездов и 3000 проверочных образцов).
Я надеялся найти способы сократить общее расписание поездов. Любые предложения были бы замечательными.