Трансформеры в 2020 году.

2019 год был годом BERT, и о нем много написано. По правде говоря, трудно переоценить влияние, которое Трансформеры оказали на сообщество НЛП: LSTM теперь звучат старомодно (или нет? ²), в 2019 году неуклонно появлялись новейшие статьи, и, в Google BERT запустила в производство в рекордно короткие сроки. Все это при включении Трансферного обучения, которое теперь является самым крутым ребенком в НЛП-городе.

Развитие вокруг этих моделей до сих пор было значительным, но разве Transformers уже достигли своего пика? Какие области исследований нам следует рассмотреть наиболее внимательно? Что еще интересного в этих сетях, основанных на внимании, в 2020 году? Эти идеи стали предметом обсуждения недавно на мероприятии Transformers at Work в Zeta Alpha, где было рассмотрено много интересных точек зрения на эту тему.

Вот мое мнение.

Модели

В 2019 году произошел взрыв в вариантах архитектуры для моделей Transformer, и за ними трудно угнаться (конечно, забыв о некоторых): большие кузены (Transformer-XL, GPT-2, Ernie, XLNet, RoBERTa, CTRL), меньшие кузены (ALBERT, DistilBERT) или совсем недавно такие племянники, как Reformer или Compressive Transformer.

Теперь ясно, что модели выращивания по-прежнему успешны для улучшения современного состояния для многих задач, но должны ли мы? Насколько это добавляет ценности? Модели, которые становятся меньше, но сохраняют производительность, были тенденцией, которую мы начали наблюдать в 2019 году и хотим сохранить неизменной в 2020 году. Может быть, появятся какие-то новаторские подходы помимо обрезки модели или дистилляции? Ребята из Huggingface - создатели вездесущей библиотеки Transformers - заставили нас поговорить об этой освежающей тенденции своим подходом к обучению DistilBERT ¹⁰, который, естественно, связан с моим следующим пунктом.

Блестящие новые архитектуры вызывают много шума и внимания (каламбур); но в машинном обучении обучающий сигнал запускает шоу из-за кулис. Вообще говоря, производительность модели ограничена самым слабым фактором в сочетании выразительности модели и качества обучающего сигнала (цель или вознаграждение в RL или потеря в DL). Например, DistilBERT обучается в среде ученика и учителя ¹⁰, в которой сеть учеников (меньшая) пытается имитировать поведение сети учителей. (оригинал). Добавляя этот термин вместо обучения только исходной задаче моделирования языка, функция потерь для студенческой сети становится намного богаче, позволяя сети учиться более выразительно. Если вы мне все еще не верите, вспомните, что произошло с GAN ³ в 2014 году: простая сеть в сочетании с интересной функцией потерь (другая сеть) и… 💥 волшебство!

Самоконтроль и языковое моделирование в качестве обучающего сигнала общего назначения для языковых задач следует считать залогом прогресса НЛП в такой же мере, как и архитектурные революции, поэтому в 2020 году я хочу увидеть инновации в этой области.

Задачи и наборы данных

Как вы, возможно, слышали, северный магнитный полюс и полюс Земли не совпадают идеально; собственно, магнитный из года в год постоянно колеблется. Тем не менее, если вы путешествуете по Нидерландам и хотите отправиться к истинному Северному полюсу, обычный компас будет отличным ориентиром; ну, по крайней мере, лучше, чем вообще ничего. Однако по мере приближения к пункту назначения отклонение вашего компаса будет становиться все более очевидным, что сделает его непригодным для этой задачи.

Здесь можно ясно провести аналогию с исследованиями ИИ. Объективное измерение - краеугольный камень научного развития, даже необъективный показатель обычно лучше, чем его отсутствие. То, как измеряется прогресс, является важным фактором того, как будет развиваться область и какие исследования будут проводиться в конце дня; и именно поэтому нам необходимо тщательно разрабатывать оценки в соответствии со стимулами, которые приведут к оптимальному развитию. Стандартные задачи НЛП были прекрасным компасом для исследований в последние несколько лет, однако, чем ближе мы подходим к решению набора данных, тем хуже он становится в качестве показателя прогресса, поэтому Приятно видеть, как в 2020 году набирают обороты новые тесты.

Например, в Facebook Research они недавно работали над новым набором данных и тестом для ответов на длинные вопросы: ELI5 (объясните мне, как будто я 5) - да, он основан на знаменитый одноименный сабреддит -. Цель этого нового набора данных - продвинуть исследования в области ответов на вопросы открытого домена, раздвинув границы задач, с которыми в настоящее время преуспевают Transformers.

[…] Развернутый набор данных с ответами на вопросы, в котором подчеркивается двойная проблема выделения соответствующей информации в длинных исходных документах и ​​генерации пояснений длиной в абзацы в ответ на сложные и разнообразные вопросы3.

Другой пример интересного нового набора данных - PG-19 Language Modeling Benchmark от DeepMind: эталон для долгосрочного языкового моделирования (книжный масштаб!), Наряду с еще одной реинкарнацией Transformer под названием ООО Компрессорный трансформатор ⁵. Надеюсь, эта задача поможет преодолеть текущие ограничения моделей Seq2Seq, имеющих дело с (очень) долгосрочными зависимостями.

Даже вездесущий GLUE Benchmark подвергается столь необходимой подтяжке лица. SuperGLUE ⁶ явился серьезным претендентом на звание де-факто универсального эталона для изучения языков в ближайшем будущем. Он включает, среди прочего, более сложные задачи и более подробные человеческие оценки.

Этот раздел был бы неполным без упоминания одной из моих любимых недавних работ по более широкой теме Мера интеллекта Франсуа Шоле, которая заигрывает с философским подходом к этому вопросу, тем не менее конкретное предложение на столе: Корпус абстрактных рассуждений и его сложное соревнование Kaggle. Продолжайте эти замечательные инициативы!

Лучшее понимание

Есть что-то привлекательно загадочное в системах, которые мы не до конца понимаем. Часто наше восприятие интеллекта в алгоритме обратно пропорционально тому, насколько глубоко мы понимаем его механизмы. Не так давно люди думали, что для овладения шахматами требуется интеллект; затем Deep Blue победил Гэри Каспарова в 1996 году, и мы поняли, как это можно сделать, и эта машина перестала нуждаться в интеллекте.

Твердое понимание вопроса «почему вопросы» имеет решающее значение для достижения прогресса, поэтому модели могут отлично выглядеть в списках лидеров задач, но мы не должны делать преждевременные выводы об их возможностях без тщательного исследования их внутренней работы. . Сопоставляя эту идею с пространством Трансформеров, было посвящено много работы, чтобы понять, почему эти модели работают так же хорошо, как и они; но недавняя литература еще не полностью сошлась на однозначном выводе.

Например, при изучении поведения предварительно обученной модели BERT, На что смотрит BERT? »Пришел к выводу, что определенные головы внимания ответственны за обнаружение языковых явлений; тогда как вопреки многим интуициям Внимание не является объяснением »утверждает, что внимание не является надежным сигналом для интерпретации того, что понимает BERT. Раскрытие темных секретов BERT ⁹ »дает ценную информацию о том, что происходит во время тонкой настройки, но объем их выводов ограничен: внимание не привлекает никаких явных лингвистических явлений, BERT - это сильно перенастроены (удивительно! 🤯), и тот факт, что BERT не обязательно должен быть очень умным для решения большинства задач. Такого рода качественное исследование легко упустить из виду, потому что оно не отображается в показателях, но мы всегда должны следить за ним.

В заключение, многие секреты того, почему работают Трансформеры, еще предстоит раскрыть, поэтому так интересно ждать новых исследований, которые появятся в этой сфере в 2020 году.

Это были мои фавориты, хотя многие другие темы также заслуживают внимания в этом посте, например, как фреймворки, подобные 🤗 / transformers, будут продолжать расти, чтобы расширять возможности исследований, возможности расширения трансферного обучения или новые подходы, эффективно сочетающие символическое мышление с DL. методы.

Что ты думаешь? Что вам больше всего нравится в Трансформерах в 2020 году?

Цитаты:

[1] Трансформеры за работой, 17 января 2020 г. Zeta Alpha Vector.

[2] Стивен Мерити, 2019. Одностороннее внимание RNN: хватит думать головой

[3] Ян Гудфеллоу и др. al. 2014. Генеративные состязательные сети

[4] Анжела Фан, Ясин Джернит, Итан Перес и др. al. 2019. ELI5: Подробный ответ на вопрос.

[5] Джек В. Рэй и др. al. 2019. Компрессионные трансформаторы для моделирования длинных последовательностей

[6] Алекс Ван, Яда Пруксачаткун, Никита Нангиа, Аманприт Сингх и др. al. 2019. SuperGLUE: более надежный тест для систем понимания языков общего назначения

[7] Кевин Кларк, Урваши Ханделвал, Омер Леви, Кристофер Д. Мэннинг, 2019. На что смотрит БЕРТ? Анализ внимания BERT .

[8] Сартак Джайн, Байрон К. Уоллес, 2019. Внимание - это не объяснение

[9] Ольга Ковалёва, Алексей Романов, Анна Роджерс, Анна Румшиски, 2019. Раскрытие темных секретов BERT

[10] В. Сань, Л. Дебют, Дж. Шомон, Т. Вольф, 2019. DistilBERT, дистиллированная версия BERT: меньше, быстрее, дешевле и легче