Выбор идеальной скорости обучения

При обучении модели «скорость обучения» часто считается наиболее важным гиперпараметром. Выбор оптимальной скорости обучения может значительно улучшить обучение нейронной сети и предотвратить любое странное поведение, которое может возникнуть во время стохастического градиентного спуска.

Почему важен выбор правильной скорости обучения?

Стохастический градиентный спуск (SGD) — это алгоритм оптимизации, который помогает функции потерь сходиться к глобальному минимуму или к самой низкой точке потерь. Он ведет себя так же, как градиентный спуск, но также имеет пакеты для повышения вычислительной эффективности. Градиентный спуск выполняется для каждой из этих меньших партий вместо всего размера обучающей выборки. После каждой итерации обучения SGD приближается на один шаг к глобальному минимуму, пока не достигнет этой точки. Гиперпараметр скорости обучения — это размер шага, который SGD использует для сходимости.

Если скорость обучения слишком велика, то SGD может выйти за пределы глобального минимума и полностью пропустить глобальный минимум, что усугубит потери.

Если скорость обучения слишком мала, для сходимости SGD может потребоваться много времени, поскольку он будет делать небольшие шаги к глобальному минимуму. В случаях, когда функция невыпукла, модель может застрять на локальном минимуме.

Мы хотим найти идеальную скорость обучения, которая не требует много итераций для сходимости, а также в конечном итоге находит наименьшие потери.

Как мы можем это сделать?

Один из способов решить эту проблему — попробовать разные значения скорости обучения и выбрать значение, которое приводит к наименьшим потерям, не требуя слишком много времени для сходимости. Некоторые общие значения скорости обучения включают 0,1, 0,01, 0,001 и 0,0001. Это метод догадок и проверок, который не всегда будет эффективным и точным.

Лучший подход — начать с большого значения скорости обучения и постепенно уменьшать это значение. Веса инициализируются случайным образом и могут быть далеки от оптимального значения. Поэтому начинать с большой скорости обучения будет выгодно. Позже более низкая скорость обучения лучше оптимизирует веса ближе к оптимальному значению, изменяя их лишь незначительно. Это известно как снижение скорости обучения и показано, что оно помогает с оптимизацией и обобщением.

Циклические скорости обучения

В статье Лесли Н. Смита «Циклические скорости обучения для обучения нейронных сетей» обсуждается другой метод выбора оптимальной скорости обучения.
В этом методе скорость обучения постепенно увеличивается для каждую мини-партию, пока потери не начнут взрываться. Скорость обучения по сравнению с потерями строится для каждой итерации. В документе упоминается, что идеальная скорость обучения — это точка, в которой потери все еще уменьшаются, прямо перед тем, как они достигнут глобального минимума.

Fastai Learning Rate Finder

Fastai — это бесплатная библиотека с открытым исходным кодом для глубокого обучения. Он имеет множество полезных и простых в использовании инструментов для создания и обучения нейронных сетей. Эта библиотека была создана Джереми Ховардом и командой специалистов по данным, у которых есть подробный курс о том, как ориентироваться и использовать fastai.
В эту библиотеку включен инструмент для определения скорости обучения.

С помощью двух простых линий fastai может найти идеальную скорость обучения для модели, нанеся различные скорости обучения в зависимости от потерь.

Learn.lr_find()
Learn.Recorder.plot()

Следующая строка кода изменяет скорость обучения с большего значения на меньшее во время обучения.

Learn.fit_one_cycle (4, lr_max = срез (1e-3,1e-4))

Я надеюсь, что эта статья была для вас полезной и смогла предоставить вам некоторые методы оптимизации обучения с помощью скорости обучения.

ИСТОЧНИКИ:

Стохастический градиентный спуск — ясное объяснение !!
Стохастический градиентный спуск — это очень популярный и распространенный алгоритм, используемый в различных алгоритмах машинного обучения, большинство…towardsdatascience.com

Оценка оптимальной скорости обучения для глубокой нейронной сети
Скорость обучения — один из наиболее важных гиперпараметров, которые необходимо настроить для обучения глубоких нейронных сетей.towardsdatascience .com

Циклические скорости обучения для обучения нейронных сетей
Известно, что скорость обучения является наиболее важным гиперпараметром для настройки для обучения глубоких нейронных сетей…arxiv. орг

Чувствуете, что вот-вот прыгнете в кроличью нору, читая эти невероятные статьи?
Не волнуйтесь, мы чувствуем то же самое.
Вы не только можете прыгнуть с нами в кроличью нору, но у нас более чем достаточно статей, которые помогут вам вырваться из колеи ;)
Чтобы узнать о некоторых из лучших идей на Medium от самых молодых умов поколения, посетите студенты x студенты.

студенты х учащиеся
Предоставление платформы для повышения мнения учащихся и придания им большей уверенности и удовлетворения в своих письменных работах.studentsxstudents.com

Выбор идеальной скорости обучения

Почему важен выбор правильной скорости обучения?

Как мы можем это сделать?

Циклические скорости обучения

Fastai Learning Rate Finder

Вопросы по теме