Эмпирический успех глубоких нейронных сетей (ГНС) вдохновил сообщество исследователей машинного обучения на проведение теоретических исследований таких аспектов ГНС, как обучение, оптимизация и обобщение. Одной из важных смежных областей исследований является изучение того, как разработать доказуемые алгоритмы обучения с эффективным временем и выборкой для нейронных сетей — задача, которая остается нерешенной даже в простейшем случае нейронных сетей с прямой связью глубины 2.

Чтобы продвинуть исследования в этой области, команда из Google Research и Северо-Западного университета представила набор полиномиальных алгоритмов, эффективных по времени и выборке, для обучения неизвестной нейронной сети с прямой связью глубины 2 с активациями общей выпрямленной линейной единицы (ReLU). В их недавней статье Эффективные алгоритмы обучения нейронных сетей глубины-2 с общими активациями ReLU исследуется вероятность таких эффективных алгоритмов обучения сетей ReLU.

Команда рассматривает задачу контролируемого обучения с входными данными, полученными из стандартного распределения Гаусса, и метками, сгенерированными нейронной сетью с поэлементными функциями активации ReLU. Тензор, используемый в работе, формируется путем взятия средневзвешенной функции оценки, оцениваемой в каждой точке данных. Примечательно, что команда отмечает, что хорошее приближение к сети может быть достигнуто путем анализа нескольких тензоров более высокого порядка.

Предыдущая работа в этой области предполагала, что смещение обучающихся сетей с активациями ReLU равно нулю. В отличие от этого традиционного подхода, предлагаемые алгоритмы содержат сильно разлагающиеся множественные тензоры более высокого порядка, возникающие в результате разложения функции Эрмита, а их производительность подтверждает, что алгоритмы полиномиального времени могут быть хорошо спроектированы даже при наличии членов смещения в ReLU. единицы.

Команда использует структуру сглаженного анализа — парадигму анализа за пределами наихудшего случая — для изучения и объяснения практического успеха различных алгоритмов, а также для установления гарантий за пределами наихудшего случая и идентифицируемости параметров сети при минимальных предположениях.

В целом, это теоретическое исследование представляет алгоритмы полиномиального времени для обучения нейронных сетей глубины 2 с общими активациями ReLU с ненулевыми условиями смещения, обеспечивает доказуемые гарантии в условиях умеренной невырожденности и подтверждает существование эффективных по времени и эффективных по выборке алгоритмов обучения для нейронные сети. Команда предполагает, что можно провести дальнейшие исследования, чтобы обеспечить аналогичные гарантии для сетей большей глубины.

Статья Эффективные алгоритмы обучения нейронных сетей глубины 2 с общими активациями ReLU находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.