В настоящее время я читаю следующую статью: «SqueezeNet: точность уровня AlexNet с в 50 раз меньшим количеством параметров и размером модели ‹0,5 МБ».
В этом 4.2.3 (уровень функции активации) есть следующее утверждение:
Разветвления функции активации почти полностью ограничены фазой обучения и мало влияют на вычислительные требования во время логического вывода.
Я понимаю влияние функции активации следующим образом. Функция активации (ReLU и т. д.) применяется к каждой единице карты признаков после обработки операции свертки. Я думаю, что обработка в это время является одной и той же обработкой как в режиме обучения, так и в режиме вывода. Почему мы можем сказать, что это оказывает большое влияние на обучение и не оказывает большого влияния на вывод?
Может кто-нибудь объяснить это.