У меня есть несколько вопросов относительно теории градиентного спуска нейронных сетей.
Первый вопрос: допустим, у нас есть 5 весов, по одному для каждой из 5 функций. А теперь мы хотим вычислить градиент. Как алгоритм внутренне это делает? Берет ли он первый вес (=W1) и пытается его немного увеличить (или уменьшить), а когда это сделано, переходит ко второму весу? Или он делает это по-другому и более эффективно, меняя одновременно более 1 веса?
Второй вопрос: если функция 1 намного важнее, чем функция 2, поэтому одно и то же изменение (в %) W1 оказывает большее влияние на потери по сравнению с W2, не лучше ли иметь разную скорость обучения для каждого веса? Если у нас есть только одна скорость обучения, мы устанавливаем ее, принимая во внимание только наиболее значимый вес, верно?