Новый алгоритм и архитектура глубокого обучения

Наш мир полон удивительных вещей. Но это не означает, что у нас есть ограниченное количество архитектур в машинном обучении и глубоком обучении, чтобы вы могли проводить исследования только как один из способов. Исследования полны удивительной коллекции архитектуры глубокого обучения. Итак, в этой статье я собрал этот тип архитектуры, который может быть полезен для вашего следующего проекта глубокого обучения.

1. Неявные автоэнкодеры от Алиреза Махзани

  • «Неявный автокодировщик» (IAE), генеративный автокодировщик, в котором как генеративный путь, так и путь распознавания параметризованы неявными распределениями.
  • Неявные распределения позволяют нам узнать более выразительные распределения апостериорного и условного правдоподобия для автокодировщика.
  • Ссылка: https://arxiv.org/abs/1805.09804

2. Репараметризация нейронов улучшает структурную оптимизацию.

  • Оптимизация конструкции - популярный метод проектирования таких объектов, как фермы мостов, крылья самолетов и оптические устройства.
  • Неявное искажение функций, вызванное нейронными сетями для улучшения параметризации структурной оптимизации.
  • Ссылка: https://arxiv.org/abs/1805.09804

3. Сжатие экстремальных языковых моделей с оптимальными подсловами и общими проекциями.

  • Предварительно обученные языковые модели глубоких нейронных сетей, такие как ELMo, GPT, BERT и XLNet, недавно достигли высочайшего уровня производительности при решении различных задач понимания языка. Он большой по размеру, что непрактично для мобильных и периферийных устройств.
  • Вся эта модель имеет большой входной размер и словарный запас. Это было достигнуто для большого количества моделей учителя (большой набор данных). Но неэффективен для набора данных студентов (небольшой набор данных).
  • В этой статье автор разрабатывает новый подход, представляет собой новую технику дистилляции знаний для обучения модели ученика со значительно меньшим словарным запасом, а также меньшими встраиваемыми и скрытыми измерениями состояния.
  • Этот метод позволяет сжать модель BERT_BASE более чем на 60x с незначительным падением показателей последующих задач, в результате чего языковая модель занимает менее 7 МБ. Экспериментальные результаты также демонстрируют более высокую эффективность и точность сжатия по сравнению с другими современными методами сжатия.
  • Ссылка: https://arxiv.org/abs/1909.11687

4. АЛЬБЕРТ: Alite BERT для самостоятельного изучения языковых представлений.

  • Увеличение размера модели при предварительном обучении представлений на естественном языке часто приводит к повышению производительности последующих задач. Однако в какой-то момент дальнейшее увеличение модели становится сложнее из-за ограничений памяти GPU / TPU, более длительного времени обучения и неожиданной деградации модели.
  • Внутри этой проблемы Автор вывел два метода уменьшения параметров, чтобы снизить потребление памяти и увеличить скорость обучения BERT. Всеобъемлющие эмпирические данные показывают, что предлагаемые методы позволяют создавать модели, которые масштабируются намного лучше по сравнению с исходным BERT. .
  • Лучшая модель устанавливает новые современные результаты тестов GLUE, RACE и SQuAD при меньшем количестве параметров по сравнению с BERT-large.
  • Ссылки: https://openreview.net/pdf?id=H1eA7AEtvS

5. BagNet: аналоговый генератор Беркли с оптимизатором макета, усиленный глубокими нейронными сетями

  • Эта работа представляет собой структуру обучения, которая учится сокращать количество симуляций комбинаторных оптимизаторов на основе эволюции с помощью DNN, которая различает сгенерированные образцы, перед запуском моделирования.
  • Используя этот подход, дискриминатор обеспечивает повышение эффективности выборки как минимум на два порядка для нескольких примеров крупных схем, включая схему приемника оптической линии связи.
  • Ссылки: https://arxiv.org/abs/1907.10515

6. Эвристика для эффективного сокращения комбинаций скрытых слоев для нейронных сетей с прямой связью.

  • Проблема гиперпараметрического поиска в области машинного обучения и эвристический подход в попытке ее решить.
  • В большинстве алгоритмов обучения перед началом обучения необходимо определить набор гиперпараметров. Выбор гиперпараметров может существенно повлиять на производительность окончательной модели. Но, тем не менее, определение правильного выбора гиперпараметров в большинстве случаев является сложной задачей и требует большого количества вычислительных ресурсов.

  • В этом документе разница между исчерпывающим поиском гиперпараметров и эвристическим поиском и показано, что наблюдается значительное сокращение затраченного времени чтобы получить итоговую модель с незначительными различиями в оценочных показателях по сравнению с эталонным случаем.

Спасибо, что прочитали… !!! Удачного обучения… !!! Следите за новостями об этой неизвестной, но удивительной архитектуре и методах исследовательской работы, читая резюме… !!!