Капсульные сети за пределами распознавания изображений

Принимая во внимание новизну капсульных сетей, неудивительно, что некоторые исследователи до сих пор ставят под сомнение их ценность и способность превзойти более традиционные подходы к распознаванию изображений. Несмотря на первоначальные успехи на этом поприще, впереди много работы. Не говоря уже об их применении в областях, отличных от компьютерного зрения. Однако пока скептики сомневаются, кто-то еще проверяет это на практике и ищет новые пути развития. Следуя по стопам своих предшественников, ConvNet, капсульные сети могут оказаться полезными в двух других областях: компьютерных играх и обработке естественного языка (NLP).

Когда мы слышим о сверточных нейронных сетях, мы обычно думаем о компьютерном зрении. С момента своего создания сверточные сети добились больших успехов в распознавании объектов благодаря способности обобщать и различать важные признаки. Тем не менее, это не единственное их достижение на данный момент. Сегодня результаты, наблюдаемые в нескольких других типах задач, показывают, что CNN часто обеспечивают лучшую точность и производительность, чем предыдущие методы. Это относится, в первую очередь, к НЛП, задачам прогнозирования, некоторым компьютерным играм и задачам с небольшими обучающими наборами данных. Таким образом, мы не должны также ограничивать капсульные сети их первоначальным назначением. Тот факт, что CapsNets еще не исследованы далеко за пределами распознавания изображений, не должен нас останавливать, тем более что первые попытки уже были предприняты.

Игры

Деревья поведения и алгоритмы конечного автомата успешно применялись во многих компьютерных играх, но они могут оказаться недостаточными для продвинутых сред с большими пространствами состояний. В этом отношении могут быть полезны сверточные и капсульные сети, если мы дадим им шанс. Сейчас мы уже можем найти несколько реализаций игрового ИИ с использованием CNN, например, для таких игр, как Checkers, Go, Life, стратегии в реальном времени и 2048. Что касается CapsNets, то мы смогли найти единственные исследования в этой области, подготовленные Пер-Арне Андерсен. В статье рассматривается процесс глубокого обучения с подкреплением в капсульных сетях в следующих игровых средах:

Вспышка РЛ
Глубокие войны
Глубокая стратегия в реальном времени
Глубокий лабиринт
Летающая птица

Исследование направлено на применение архитектуры CapsNet для алгоритмов на основе глубокого Q-обучения для игрового ИИ. Целью сети является анализ заданных состояний (просмотров игр) и определение рекомендуемых действий. Вместо классификации объектов капсулы теперь оценивают вектор вероятности того, что действие разумно выполнить в текущем состоянии. Таким образом, в данном случае капсульные сети использовались почти как обычно — для обработки изображений — но с новой целью. Взгляд на проблему под новым углом может дать нам интересные (хотя и не обязательно идеальные) результаты.

Автор также представляет подход к генеративному моделированию для создания искусственных обучающих данных для использования в моделях глубокого обучения с подкреплением (DRL). С этой целью он описывает архитектуру условной сети деконволюции свертки (CCDN). Его цель — генерировать наборы данных, которые можно использовать для обучения алгоритмов RL без самостоятельной игры, и уменьшить объем необходимых исследований для разработчиков игр.

Не все результаты исследований хороши. Например, у CCDN есть проблемы в игровых средах с разреженным представлением в пространстве состояний. Капсульные сети масштабируются хуже, чем ConvNets, и в некоторых средах показывают худшие результаты. В простых средах модели склонны к переоценке. Однако в ряде других случаев они справляются хорошо. Таким образом, автор с оптимизмом смотрит на первоначальные достижения, хотя и признает необходимость дальнейших исследований.

НЛП

НЛП — еще одна область, в которой могут быть полезны капсульные сети, а также ConvNets. За последние годы ConvNets неоднократно применялись для распознавания речи, семантического анализа, классификации предложений и документов, машинного перевода, синтеза звука, языкового моделирования и аналогичных задач обработки языка. Если структура сверточной сети с малой адаптацией позволяет это сделать, то, вероятно, для тех же целей можно попробовать и капсулы.

Капсульные сети кажутся хорошим решением проблем языкового моделирования, поскольку они позволяют нам решить некоторые проблемы сверточных сетей. Дело в том, что за слоем свертки обычно следует слой пула, который полезен для выявления наиболее важных особенностей. Однако max pooling приводит к потере информации о структуре и взаимном расположении разных частей изображения. Именно здесь капсульные сети могут добиться успеха. Такие нейронные сети хороши там, где нужно не только выделить какую-то последовательность из целого, но и учесть порядок или структуру отдельных элементов. В то время как сверточные сети могут быть хороши в таких задачах, как обнаружение спама, идентификация текстовых сущностей или ключевых идей, CapsNets могут пойти дальше и справиться с иерархически более сложными задачами, например, анализом шифра или обнаружением программных ошибок. Теоретически они могли бы быть лучше везде, где есть высокие требования к языковой генерации. Переводчики программ чат-ботов, поисковые системы и генераторы контента могут стать умнее с помощью CapsNets.

Но это только в теории. Капсульные сети очень новы и непредсказуемы. Они могут либо совершить прорыв в мире программного обеспечения через несколько лет, либо умереть и быть замененными другой, более совершенной технологией. Некоторые исследователи занимают здесь золотую середину: CapsNets, вероятно, преуспеют в видеоразведке и отслеживании объектов, но не обязательно в НЛП.

Однако, хотя исход таких попыток предсказать сложно, они вполне осуществимы на практике. Основная задача — преобразовать входные данные (текст) в матричный вид, соответствующий архитектуре CapsNets. Мы могли бы принять во внимание опыт ConvNets и использовать инструменты словесного эмбеддинга (низкоразмерные представления), такие как Word2Vec или GloVe. Они принимают текстовый корпус в качестве входных данных и производят векторы слов в качестве выходных данных. Возможна работа и с уровнем символов, где каждой строке матрицы соответствует символ. Таким образом, вместо пикселей изображения входными данными для большинства задач НЛП являются предложения или документы, представленные в виде матрицы. Применяя встраивание к каждому слову в тексте, получаем нужный массив для дальнейшей обработки. Это наш имидж. Что касается разных каналов, мы могли бы использовать их для одного и того же предложения, представленного на разных языках или сформулированного по-разному. Конечно, такой подход требует определенных фильтров и алгоритмов обработки слоев.

Но зачем?

Остальные нейронные сети уже показывают отличные результаты и их легче использовать, так как они лучше усваиваются. Мы могли бы продолжать эксперименты с ними до тех пор, пока не будут исчерпаны все их возможности. Однако все эти давно изученные и проверенные технологии когда-то были сомнительными и бесперспективными, которые кто-то решил развивать «просто потому, что мог».

Дело в том, что возможности CapsNets не ограничиваются только классификацией изображений. Нам просто нужно адаптировать входные данные конкретной задачи к этой архитектуре, чтобы воспользоваться преимуществами ее использования. Или, по крайней мере, начать применять его для более широкого круга задач обработки изображений и видеоанализа, а не только для различения собак и кошек.

Что читать дальше:

Первоначально опубликовано на riter.co.

Капсульные сети за пределами распознавания изображений

Игры

НЛП

Но зачем?

Вопросы по теме