Новый алгоритм и архитектура глубокого обучения
Наш мир полон удивительных вещей. Но это не означает, что у нас есть ограниченное количество архитектур в машинном обучении и глубоком обучении, чтобы вы могли проводить исследования только как один из способов. Исследования полны удивительной коллекции архитектуры глубокого обучения. Итак, в этой статье я собрал этот тип архитектуры, который может быть полезен для вашего следующего проекта глубокого обучения.
1. Неявные автоэнкодеры от Алиреза Махзани
- «Неявный автокодировщик» (IAE), генеративный автокодировщик, в котором как генеративный путь, так и путь распознавания параметризованы неявными распределениями.
- Неявные распределения позволяют нам узнать более выразительные распределения апостериорного и условного правдоподобия для автокодировщика.
- Ссылка: https://arxiv.org/abs/1805.09804
2. Репараметризация нейронов улучшает структурную оптимизацию.
- Оптимизация конструкции - популярный метод проектирования таких объектов, как фермы мостов, крылья самолетов и оптические устройства.
- Неявное искажение функций, вызванное нейронными сетями для улучшения параметризации структурной оптимизации.
- Ссылка: https://arxiv.org/abs/1805.09804
3. Сжатие экстремальных языковых моделей с оптимальными подсловами и общими проекциями.
- Предварительно обученные языковые модели глубоких нейронных сетей, такие как ELMo, GPT, BERT и XLNet, недавно достигли высочайшего уровня производительности при решении различных задач понимания языка. Он большой по размеру, что непрактично для мобильных и периферийных устройств.
- Вся эта модель имеет большой входной размер и словарный запас. Это было достигнуто для большого количества моделей учителя (большой набор данных). Но неэффективен для набора данных студентов (небольшой набор данных).
- В этой статье автор разрабатывает новый подход, представляет собой новую технику дистилляции знаний для обучения модели ученика со значительно меньшим словарным запасом, а также меньшими встраиваемыми и скрытыми измерениями состояния.
- Этот метод позволяет сжать модель BERT_BASE более чем на 60x с незначительным падением показателей последующих задач, в результате чего языковая модель занимает менее 7 МБ. Экспериментальные результаты также демонстрируют более высокую эффективность и точность сжатия по сравнению с другими современными методами сжатия.
- Ссылка: https://arxiv.org/abs/1909.11687
4. АЛЬБЕРТ: Alite BERT для самостоятельного изучения языковых представлений.
- Увеличение размера модели при предварительном обучении представлений на естественном языке часто приводит к повышению производительности последующих задач. Однако в какой-то момент дальнейшее увеличение модели становится сложнее из-за ограничений памяти GPU / TPU, более длительного времени обучения и неожиданной деградации модели.
- Внутри этой проблемы Автор вывел два метода уменьшения параметров, чтобы снизить потребление памяти и увеличить скорость обучения BERT. Всеобъемлющие эмпирические данные показывают, что предлагаемые методы позволяют создавать модели, которые масштабируются намного лучше по сравнению с исходным BERT. .
- Лучшая модель устанавливает новые современные результаты тестов GLUE, RACE и SQuAD при меньшем количестве параметров по сравнению с BERT-large.
- Ссылки: https://openreview.net/pdf?id=H1eA7AEtvS
5. BagNet: аналоговый генератор Беркли с оптимизатором макета, усиленный глубокими нейронными сетями
- Эта работа представляет собой структуру обучения, которая учится сокращать количество симуляций комбинаторных оптимизаторов на основе эволюции с помощью DNN, которая различает сгенерированные образцы, перед запуском моделирования.
- Используя этот подход, дискриминатор обеспечивает повышение эффективности выборки как минимум на два порядка для нескольких примеров крупных схем, включая схему приемника оптической линии связи.
- Ссылки: https://arxiv.org/abs/1907.10515
6. Эвристика для эффективного сокращения комбинаций скрытых слоев для нейронных сетей с прямой связью.
- Проблема гиперпараметрического поиска в области машинного обучения и эвристический подход в попытке ее решить.
- В большинстве алгоритмов обучения перед началом обучения необходимо определить набор гиперпараметров. Выбор гиперпараметров может существенно повлиять на производительность окончательной модели. Но, тем не менее, определение правильного выбора гиперпараметров в большинстве случаев является сложной задачей и требует большого количества вычислительных ресурсов.
- В этом документе разница между исчерпывающим поиском гиперпараметров и эвристическим поиском и показано, что наблюдается значительное сокращение затраченного времени чтобы получить итоговую модель с незначительными различиями в оценочных показателях по сравнению с эталонным случаем.
Спасибо, что прочитали… !!! Удачного обучения… !!! Следите за новостями об этой неизвестной, но удивительной архитектуре и методах исследовательской работы, читая резюме… !!!