Теорема Байеса - одна из самых важных формул в области математической статистики и вероятности, используемая для расчета шансов на то, что конкретное событие произойдет, на основе соответствующей существующей информации. Между тем байесовский вывод использует теорему Байеса для обновления вероятности гипотезы по мере появления дополнительных данных. Как байесовский вывод может принести пользу моделям глубокого обучения? Доцент Нью-Йоркского университета Эндрю Гордон Уилсон ответил на этот вопрос в своей недавней статье The Case for Bayesian Deep Learning.

Резюме статьи: Ключевым отличительным свойством байесовского подхода является маргинализация вместо оптимизации, а не априорное правило или правило Байеса. Байесовский вывод особенно убедителен для глубоких нейронных сетей. (1) Нейронные сети обычно недооцениваются данными и могут представлять множество различных, но высокопроизводительных моделей, соответствующих различным настройкам параметров, и именно тогда маргинализация будет иметь наибольшее значение как для калибровки, так и для точности. (2) Глубокие ансамбли были ошибочно приняты за конкурирующие подходы к байесовским методам, но их можно рассматривать как приблизительную байесовскую маргинализацию. (3) Структура нейронных сетей порождает структурированный априор в функциональном пространстве, который отражает индуктивные предубеждения нейронных сетей, которые помогают им обобщать. (4) Наблюдаемая корреляция между параметрами в плоских областях потерь и разнообразием решений, обеспечивающих хорошее обобщение, в дальнейшем способствует байесовской маргинализации, поскольку плоские области занимают большой объем в многомерном пространстве, и каждое отдельное решение будет давать хороший вклад в среднее значение байесовской модели. (5) Последние практические достижения в области байесовского глубокого обучения обеспечивают повышение точности и калибровки по сравнению со стандартным обучением, сохраняя при этом масштабируемость. (arXiv)

Synced пригласил доктора Хао Ванга, научного сотрудника лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL), который занимается статистическим машинным обучением и глубоким обучением, чтобы поделиться своими мыслями о статье The Case for Bayesian Deep Обучение.

Что такое байесовские нейронные сети (BNN) и байесовское глубокое обучение (BDL)?

Как четко определено в этом отчете Эндрю Уилсоном, байесовские нейронные сети (BNN) обычно относятся к байесовской трактовке нейронных сетей. В частности, цель состоит в том, чтобы обучить ряд сетей p (y | x, w), где x, y и w - входные, выходные и сетевые параметры, соответственно. Каждая конфигурация параметра w имеет апостериорное значение p (w | D), указывающее на важность такой конфигурации. Затем BNN делает прогнозы путем маргинализации: p (y | x, D) = ∫p (y | x, w) p (w | D) dw. Это можно рассматривать как «умный» подход к объединению с p (w | D) в качестве весов. В этом отчете байесовское глубокое обучение в основном относится к байесовским нейронным сетям.

Стоит отметить, что байесовское глубокое обучение (BDL) в более широком смысле также включает в себя методы, которые объединяют вероятностные графические модели и глубокие нейронные сети для достижения лучшей производительности рассуждений.

Какова история развития BNN и BDL?

Изучение BNN восходит к 1990-м годам благодаря заметным работам из Хинтона и ван Кэмпа, Денкера и ЛеКуна, Рэдфорда Нила и Дэвида Маккея. За прошедшие годы появилось большое количество работ, которые позволили существенно улучшить масштабируемость и включить последние достижения глубоких нейронных сетей, в том числе нашу статью по исследованию различных распределений в BNN и серию интересных работ по маргинализации и ансамблю. в BNN от группы Андрея.

Каковы ключевые моменты этого исследования?

В отчете Эндрю проясняются некоторые важные вопросы, связанные с байесовскими нейронными сетями, и содержится много ценных идей. Помимо основного пункта о маргинализации как ключевом свойстве байесовских нейронных сетей, еще одним интересным и проницательным моментом, на мой взгляд, является связь между глубокими ансамблями и BNN.

На более высоком уровне они оба пытаются обучить набор нейронных сетей и произвести окончательные прогнозы, используя ту или иную форму усреднения модели. Различия заключаются в следующем: (1) глубокие ансамбли по отдельности обучают эти сети с разными инициализациями, в то время как BNN напрямую обучает распределение сетей в соответствии с байесовскими принципами; (2) глубокие ансамбли напрямую усредняют прогнозы из разных сетей, в то время как BNN вычисляет средневзвешенное значение, используя апостериорную функцию каждой сети в качестве весов. Смысл этого тезиса заключается в том, что BNN фактически включает в себя глубокие ансамбли в некотором смысле, поскольку последний является приблизительным средним байесовским модельным. Таким образом, успех в глубоких ансамблях на самом деле приносит BNN как поддержку, так и дополнительную информацию.

Можете ли вы предсказать какое-либо возможное будущее развитие BNN или BDL в целом?

Основными препятствиями для широкого внедрения BNN и BDL в былые времена были эффективность вычислений и поддержка сообщества (например, общедоступные пакеты). Недавняя захватывающая разработка сделала серьезный шаг к устранению таких препятствий, например, бесчисленное множество работ для ускорения вычислений и такие пакеты, как Edward, специально разработанные для вероятностного моделирования и вывода.

В будущем мы можем ожидать значительного прогресса в BNN для обучения с ограниченными данными, ансамблевого обучения, сжатия / сокращения моделей и т. Д. В более широком смысле также будет гораздо больше работы, основанной на философии BDL (т.е. способность к рассуждению вероятностных графических моделей для глубокого обучения) в различных областях, таких как компьютерное зрение, обработка естественного языка, здравоохранение, интеллектуальный анализ данных и т. д.

Статья В пользу байесовского глубокого обучения находится на arXiv.

Доктор Хао Ван в настоящее время является научным сотрудником лаборатории компьютерных наук и искусственного интеллекта (CSAIL) Массачусетского технологического института. Он получил степень доктора философии в Гонконгском университете науки и технологий, будучи единственным лауреатом премии Школы инженерии PhD Research Excellence Award в 2017 году. Он был приглашенным исследователем на факультете машинного обучения Университета Карнеги-Меллона. Его исследования сосредоточены на статистическом машинном обучении, глубоком обучении и интеллектуальном анализе данных с широкими приложениями в области здравоохранения, рекомендательных систем, компьютерного зрения, анализа социальных сетей, интеллектуального анализа текста и т.д. KDD, CVPR, AAAI и IJCAI. Его работа по байесовскому глубокому обучению и его применению к персонализированному моделированию была хорошо принята и стала самой цитируемой статьей на KDD 2015. В 2015 году он был награжден стипендией Microsoft в Азии и исследовательской стипендией Baidu за свои инновации в области байесовского глубокого обучения и его приложения по интеллектуальному анализу данных.

Партнерская программа Synced Insight
Партнерская программа Synced Insight - это программа только по приглашениям, которая объединяет влиятельные организации, компании, академических экспертов и лидеров отрасли для обмена профессиональным опытом. и получение информации через интервью, публичные выступления и т. д. Synced приглашает к участию всех отраслевых экспертов, профессионалов, аналитиков и других лиц, занимающихся технологиями искусственного интеллекта и машинным обучением.

Просто Подайте заявку на участие в партнерской программе Synced Insight и расскажите нам о себе и своем внимании к ИИ. Мы ответим вам, как только ваша заявка будет одобрена.

Думаете о том, чтобы внести свой вклад в синхронизированную проверку? Новая колонка Поделитесь моими исследованиями от Synced приглашает ученых поделиться своими научными открытиями с глобальными энтузиастами искусственного интеллекта.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.