В своей часовой лекции, посвященной передовым исследованиям в области глубокого обучения (DL), Профессор Саргур Нарасимхамурти Шрихари затронул различные темы, включая значение репрезентации, методы репрезентативного обучения, трансферное обучение, распутывание переменных и объяснимый искусственный интеллект. (AI). Профессор Шрихари - заслуженный профессор SUNY факультета компьютерных наук и инженерии Университета Буффало. Новаторский исследователь, его исследовательские усилия привели к созданию первых в мире крупномасштабных систем интерпретации рукописных адресов (развернутых IRS и USPS), принятию судом после Даубера рукописных показаний на основе оценки индивидуальности почерка. программная система, используемая судебными экспертами по документам во всем мире, статистическая характеристика неопределенности свидетельства оттиска и первая характеристика анализа изображения документа как подполя распознавания образов. Я стремлюсь выделить важные моменты сеанса.

Примечание. Большинство изображений были взяты из слайдов лекций сэра и доступны на его веб-сайте.

Важность представлений

Являясь синонимом концепции наличия различных показателей для измерения расстояний (например, миль и км), хорошее представление формулировок наших задач жизненно важно для расширенного и эффективного обучения. Вам должно быть интересно, какое значение имеют представления для изучающего информатику. На простом примере вставки числа в отсортированный список по сравнению с вставкой числа в список, который представлен в виде красно-черного дерева, можно показать, что сложность значительно различается. У первого сложность O (n), тогда как у второго сложность O (log n).

Но при чем здесь машинное обучение (ML)? Есть ли пример, ориентированный на машинное обучение, который показывает важность репрезентаций? На рис.2 показано, как изменение системы координат ((x, y) - ›(r, θ)) может повлиять на легкость выполнения классификации. Во втором случае можно эффективно использовать линейный классификатор. Представления должны быть распутанными, инвариантными, информативными и несложными (когда дело касается работы с ними). Представления имеют значение - в конце концов, мы стремимся изучать представления!

Роль глубокого обучения в представлениях

Короче говоря, глубокое обучение находит представления. Темные области означают, что соответствующие компоненты могут учиться на данных. Распространение концепции репрезентативного обучения на несколько уровней приводит к созданию фреймворков глубокого обучения, как показано ниже (рис. 3).

Если вы энтузиаст глубокого обучения, вполне вероятно, что вы в курсе следующих нескольких тем. Но я записал свои знания не для этого; эта статья не посвящена тому, чтобы освежить свои знания основ или вдаваться в подробности. Это больше о фактах, устранении двусмысленностей и обсуждении текущих исследований.

Методы обучения репрезентации включают в себя следующее:

  1. Автоэнкодеры
  2. Сверточные нейронные сети (CNN)
  3. Рекуррентные нейронные сети (RNN)

Автоэнкодеры

Автоэнкодеры - это алгоритмы обучения без учителя. Следующие факты верны для детерминированных автоэнкодеров. Кодеры предназначены для получения сжатых и высокоинформативных представлений входных данных. Сжатые формы содержат соответствующую информацию и свойства данных, относящиеся к задаче. Декодеры расширяются / конвертируются для восстановления ввода. Редкие автоэнкодеры штрафуют сжатые представления (в скрытом слое) за счет штрафа за разреженность.

«Модель вынуждена определять приоритеты, какие аспекты входных данных копируются».

Еще одним примечательным фактом является то, что автокодировщики изучают многообразия. Говоря языком непрофессионала, представьте, что многообразие является подмножеством векторного пространства (окружающего пространства) исходных данных, т. Е. низкоразмерное пространство, связанное со сжатым представлением. У многообразия может быть несколько измерений. Интересным наблюдением будет то, что любое нетипичное поведение может наблюдаться, если вход не находится на коллекторе. По сути, , многообразие можно воспринимать как проекцию на пространство меньшей размерности (вот почему сэр привел пример PCA).

«Автоэнкодеры изучают функцию представления, которая отображает любую точку окружающего пространства на ее вложение».

Вложение - это вектор малой размерности или точка на многообразии. На рис.6 изображены вложения на многообразии знакомых классов.

Чем сжатие отличается от сжатия JPEG или Mp3 и как нам использовать возможности этих представлений?

Автоэнкодеры обучаются с потерями. Кроме того, промежуточные сжатые представления могут быть изменены в кодированном пространстве для получения результатов, которые никогда не встречались. DeepStyle - пример того же.

«Используя одно входное изображение и изменяя значения по разным размерам пространства функций, вы можете увидеть, как сгенерированное изображение изменяется (узор, цветовая текстура) в пространстве стилей».

Другой случай, когда сжатие может играть важную роль, - это анализ твитов; Известно, что исследователь проанализировал 198 миллиардов твитов с 2,8 миллиардами слов в обучающем наборе, где 30 000-мерный One hot вектор может быть представлен сжатым вектором из 300 измерений (богатым информацией). В недавней статье, названной «Встраивание данных исторической лингвистики», используются слова, общие для разных языков, для получения гиперболической геометрии (в сжатой форме), как показано на рисунке 9. Это разбирательство по делу ICML’18.

Основная концепция CNN

Понимание разреженной связи

Редкие взаимодействия - это следствие того, что размер ядра меньше размера входного изображения. Для простоты представьте себе скрытый элемент в слое L как вход для скрытых элементов. в слое L + 1. В традиционной нейронной сети с прямой связью текущая скрытая единица будет служить входом для ВСЕХ скрытых единиц слоя L + 1 (если вы не примените регуляризацию исключения). Суть проектирования CNN заключается в том, что текущая скрытая единица будет воздействовать или воздействовать только на k скрытых единиц уровня L + 1, где k - размер ядра. Таким образом, это подразумевает разреженную связанность.

CNN и умножение матриц

Операции, связанные с CNN, не 1–1 с математической сверткой из-за разреженности. CNN игнорируют влияние одного слоя на другой. На рисунке 10 представлены CNN в сравнении с традиционным матричным умножением. Заштрихованные области s_x соответствуют единицам, на которые воздействует x_3.

Вычислительные графики для RNN

RNN можно воспринимать как развернутую форму графа RNN в различные периоды времени. На рис. 11 показано, как один вычислительный граф может быть воспроизведен в течение нескольких периодов времени. . Циклы показывают, как текущее значение переменной влияет на ее будущее значение на определенном временном шаге. Предположим, что человек обсуждает фильтры Калмана, то, что он ел на завтрак, и возвращается к теме фильтров Калмана. Хотя она связала свои ссылки с чем-то, что она цитировала ранее, как система соотносит текущий контекст с предыдущей информацией? Контекстная информация имеет решающее значение в таком сценарии и концепции «большего объема памяти над более длительное время », является неприкосновенным в таких задачах, связанных с НЛП. Это привело к появлению LSTM, где состояние ячейки или конвейерная лента имеет решающее значение для передачи предыдущей информации.

Трансферное обучение

Если вы новичок в DL или у вас нет необходимого оборудования для обучения глубоких сетей, это идеальное первое задание! Мы используем трансферное обучение, когда:

  • Необходимо выполнить две или более задач.
  • Мы можем с уверенностью предположить, что факторы, описывающие вариации в задаче X, имеют отношение к вариациям, которые необходимо учитывать для обучающей задачи Y.

Например, структура DL, разработанная для распознавания рукописных английских цифр, может использоваться для распознавания цифр индийского алфавита. Трансферное обучение характеризуется общими представлениями и, как известно, улучшает производительность DNN.

Понимание оптимального представления для машинного обучения

Хорошее представление облегчит задачу классификации по мере прохождения последовательных слоев. Вполне вероятно, что классы, которые не могут быть линейно разделены во входных объектах, становятся линейно разделяемыми на последнем слое. Вся задача может рассматриваться как изучение одной функции f (x) , который включает такие функции, как f (1), f (2) и f (3). В идеале, на каждом этапе решения для f (x) классификация становится проще.

f (x)= f (3) [ f (2) [ f (1)(x)]]

«Идеальное представление - это такое представление, которое выделяет основные причинные факторы вариации, которые привели к созданию данных, особенно тех, которые имеют отношение к нашему приложению. Большинство стратегий репрезентативного обучения основаны на введении ключей, которые помогают обучению находить эти лежащие в основе факторы вариации ».

Последние обновления

Есть еще несколько концепций, о которых я расскажу в следующих статьях блога. Вот несколько текущих областей исследований в DL, которые вы могли бы изучить.

  1. Распутывание или распутывание переменных.
  2. Семантическое многообразие и изучение многообразия: профессор Саргур использовал пример рукописного текста для получения изображений, которые были созданы на основе многообразия. Основная идея заключалась в том, чтобы путешествовать по измерению в скрытом (скрытом) пространстве, обеспечивая неизменность других измерений. Его аспиранты работают над глубоким обучением для рукописного сравнения; К сожалению, его подробности недоступны, так как это текущий проект с использованием вариационных автокодировщиков для криминалистического сравнения. Если вас интересует распознавание рукописного текста, прочтите this.
  3. Capsule Networks: довольно иронично, что Джеффри Хинтон выражает свое беспокойство при использовании CNN, заявляя, что операция объединения является ошибкой и ее правильная работа может иметь катастрофические последствия для сообщества DL. Недавно он предложил CapsNet, чтобы преодолеть недостатки CNN. Вот краткая статья в блоге о том же. (Меня познакомил с этим друг).
  4. Объяснимый искусственный интеллект. Вы когда-нибудь задумывались, почему ответ, данный DNN, является ответом? Алгоритм, безусловно, не является ответом, и пора подумать о том, что находится между входом и выходом. Исследователи работают над включением интерфейса объяснения (как показано на рисунке 1) в систему обучения. Это поможет ответить на некоторые из следующих вопросов:
  • Почему был исполнен X?
  • Почему не использовался Y или какой-либо другой метод?
  • В каких сценариях это будет правильно (или неверно)?
  • Как можно исправить ошибки, относящиеся к X?
  • Когда мы можем этому доверять? (Если вы работаете над обнаружением злокачественных образований на изображениях или решаете казнить преступника, ошибки недопустимы).
  • Будет ли это обманом при любом раскладе? (Например, недавний эксперимент, связанный с распознаванием лошадей, работал некорректно, несмотря на оптимальные результаты, поскольку каждое из входных изображений, относящихся к лошадям, имело символ авторского права. Классификатор использовал символ авторского права как значение лошади: P).

«Большая часть ИИ - это черный ящик, когда дело доходит до обучения».

5. Расширение концепций вариационных автоэнкодеров (VAE) и генеративных состязательных сетей (GAN) до объяснимого ИИ.

Открытые вопросы аудитории

  1. Направлен ли объяснимый ИИ на улучшение существующих фреймворков или это совершенно новый и нетрадиционный подход?
  2. По мере продвижения обучения репрезентации представления функций будут меняться. Могут ли нынешние модели DL справиться с этим? (Очевидно, фильтры Калмана и LSTM могут справиться с этим).
  3. Наступит ли момент, когда DL превзойдет классический ML во всех сценариях?
  4. Можно ли рассматривать трансферное обучение как регуляризатор?

Примечание. Это обзор семинара. Опубликую еще несколько статей подробно. Ни один из вышеперечисленных фактов не является моими выводами; Я просто записал моменты, которые обсуждались на лекции. Не стесняйтесь поправить меня или добавить еще несколько областей текущих исследований в DL (на данный момент их множество) :)