Я использую метод Адама в кафе. Он имеет параметр настройки дельта / эпсилон (используется, чтобы избежать деления на ноль). В caffe его значение по умолчанию - 1e-8. Я могу изменить его на 1e-6 или 1-e0. Из tensorflow я слышал, что этот параметр повлияет на производительность обучения, особенно на ограниченный набор данных.
Значение по умолчанию 1e-8 для epsilon в целом может быть не очень хорошим значением по умолчанию. Например, при обучении сети Inception на ImageNet текущий хороший выбор - 1.0 или 0.1.
Если кто-нибудь экспериментировал с изменением этого параметра, дайте мне совет о влиянии этого параметра на производительность?