Неизвестная архитектура и алгоритм глубокого обучения, часть 1

Новый алгоритм и архитектура глубокого обучения

Наш мир полон удивительных вещей. Но это не означает, что у нас есть ограниченное количество архитектур в машинном обучении и глубоком обучении, чтобы вы могли проводить исследования только как один из способов. Исследования полны удивительной коллекции архитектуры глубокого обучения. Итак, в этой статье я собрал этот тип архитектуры, который может быть полезен для вашего следующего проекта глубокого обучения.

1. Неявные автоэнкодеры от Алиреза Махзани

«Неявный автокодировщик» (IAE), генеративный автокодировщик, в котором как генеративный путь, так и путь распознавания параметризованы неявными распределениями.
Неявные распределения позволяют нам узнать более выразительные распределения апостериорного и условного правдоподобия для автокодировщика.
Ссылка: https://arxiv.org/abs/1805.09804

2. Репараметризация нейронов улучшает структурную оптимизацию.

Оптимизация конструкции - популярный метод проектирования таких объектов, как фермы мостов, крылья самолетов и оптические устройства.
Неявное искажение функций, вызванное нейронными сетями для улучшения параметризации структурной оптимизации.
Ссылка: https://arxiv.org/abs/1805.09804

3. Сжатие экстремальных языковых моделей с оптимальными подсловами и общими проекциями.

Предварительно обученные языковые модели глубоких нейронных сетей, такие как ELMo, GPT, BERT и XLNet, недавно достигли высочайшего уровня производительности при решении различных задач понимания языка. Он большой по размеру, что непрактично для мобильных и периферийных устройств.
Вся эта модель имеет большой входной размер и словарный запас. Это было достигнуто для большого количества моделей учителя (большой набор данных). Но неэффективен для набора данных студентов (небольшой набор данных).
В этой статье автор разрабатывает новый подход, представляет собой новую технику дистилляции знаний для обучения модели ученика со значительно меньшим словарным запасом, а также меньшими встраиваемыми и скрытыми измерениями состояния.
Этот метод позволяет сжать модель BERT_BASE более чем на 60x с незначительным падением показателей последующих задач, в результате чего языковая модель занимает менее 7 МБ. Экспериментальные результаты также демонстрируют более высокую эффективность и точность сжатия по сравнению с другими современными методами сжатия.
Ссылка: https://arxiv.org/abs/1909.11687

4. АЛЬБЕРТ: Alite BERT для самостоятельного изучения языковых представлений.

Увеличение размера модели при предварительном обучении представлений на естественном языке часто приводит к повышению производительности последующих задач. Однако в какой-то момент дальнейшее увеличение модели становится сложнее из-за ограничений памяти GPU / TPU, более длительного времени обучения и неожиданной деградации модели.
Внутри этой проблемы Автор вывел два метода уменьшения параметров, чтобы снизить потребление памяти и увеличить скорость обучения BERT. Всеобъемлющие эмпирические данные показывают, что предлагаемые методы позволяют создавать модели, которые масштабируются намного лучше по сравнению с исходным BERT. .
Лучшая модель устанавливает новые современные результаты тестов GLUE, RACE и SQuAD при меньшем количестве параметров по сравнению с BERT-large.
Ссылки: https://openreview.net/pdf?id=H1eA7AEtvS

5. BagNet: аналоговый генератор Беркли с оптимизатором макета, усиленный глубокими нейронными сетями

Эта работа представляет собой структуру обучения, которая учится сокращать количество симуляций комбинаторных оптимизаторов на основе эволюции с помощью DNN, которая различает сгенерированные образцы, перед запуском моделирования.
Используя этот подход, дискриминатор обеспечивает повышение эффективности выборки как минимум на два порядка для нескольких примеров крупных схем, включая схему приемника оптической линии связи.
Ссылки: https://arxiv.org/abs/1907.10515

6. Эвристика для эффективного сокращения комбинаций скрытых слоев для нейронных сетей с прямой связью.

Проблема гиперпараметрического поиска в области машинного обучения и эвристический подход в попытке ее решить.
В большинстве алгоритмов обучения перед началом обучения необходимо определить набор гиперпараметров. Выбор гиперпараметров может существенно повлиять на производительность окончательной модели. Но, тем не менее, определение правильного выбора гиперпараметров в большинстве случаев является сложной задачей и требует большого количества вычислительных ресурсов.

В этом документе разница между исчерпывающим поиском гиперпараметров и эвристическим поиском и показано, что наблюдается значительное сокращение затраченного времени чтобы получить итоговую модель с незначительными различиями в оценочных показателях по сравнению с эталонным случаем.

Спасибо, что прочитали… !!! Удачного обучения… !!! Следите за новостями об этой неизвестной, но удивительной архитектуре и методах исследовательской работы, читая резюме… !!!