Основные моменты CVPR 2018

Академические тенденции и демонстрации компьютерного зрения

Как прошел CVPR18 в SLC, штат Юта? Если вы пропустили это, вот несколько основных моментов, которые, по нашему мнению, заслуживают внимания. Бесспорно, на CVPR18 было больше, чем экс-олимпийцев!

Три академических тренда, о которых вам нужно знать

Из всех статей, сессий и семинаров вот три темы, которые наш инженер Дэниел считает текущими растущими тенденциями. Спасибо, что поделились, Дэниел К.!

1. состязательное машинное обучение и GAN (генерирующие состязательные сети)

GAN - это «самая интересная идея в области машинного обучения за последние 10 лет». Так описал GAN директор по исследованиям искусственного интеллекта Facebook Янн Лекун. Неудивительно, что в этом году на CVPR было много статей о GAN. Итак, что такое GAN? Проще говоря, состязательная сеть пытается сломать существующий алгоритм. Генеративная состязательная сеть сочетает в себе существующий алгоритм и состязательный алгоритм. Они соревнуются друг с другом, чтобы лучше справляться с обеими задачами. Вот пример того, как состязательный алгоритм вмешивается в существующий алгоритм.

GAN генерирует эти ложные образы и обучает сеть, чтобы они стали невосприимчивыми к ним. Подробнее о GAN см. В этой статье. GAN становятся все более важными, когда дело доходит до индустрии беспилотных автомобилей, поскольку они напрямую связаны с вопросами безопасности. Например, предположим, что есть злоумышленник, который заменит знак остановки изображением, которое мешает работе алгоритма ИИ. Если добавить к изображению определенный шум, изображение будет восприниматься человеком как знак остановки, а для ИИ - знак движения. GAN могут помочь вам предотвратить это. Но реально, если злонамеренный хакер закрасит знак остановки, их, вероятно, арестуют и отправят в тюрьму. По большей части GAN просто повышают точность в крайних случаях.

2. Слабое контролируемое обучение

Называйте это как хотите: слабо контролируемый, неконтролируемый или самоуправляемый. Цель этих методов остается прежней. Основная цель - стать эффективными и простыми в процессах создания наборов данных. Это означает меньше аннотаций, требующих человеческого труда, и больше автоматизации при создании набора данных.

Наше внимание привлек один умный метод, основанный на одной статье об анализе эмоций из 2D-изображений. В частности: Изучение единиц действия лица из веб-изображений с помощью масштабируемой слабо контролируемой кластеризации. Согласно статье, чтобы собрать наборы данных для функции обнаружения эмоций, вам нужно просто выполнить поиск сердитый или счастливый в Google и использовать найденные изображения в качестве тренировочных наборов данных, помеченных как искомые термины.

3. Способы применения CNN в 3D-координатах

В Википедии CNN (сверточная нейронная сеть) означает «класс глубоких искусственных нейронных сетей с прямой связью, наиболее часто применяемых для анализа визуальных образов». Сами CNN не новы и эффективно помогли решить множество проблем компьютерного зрения. И теперь инженеры настаивают на использовании CNN для 3D. Мы обнаружили несколько способов из документов. Один из подходов заключается в использовании UV-карт для преобразования 3D-координат в 2D-координаты. По природе CNN использование 2D-координат более эффективно, чем 3D-координаты.

В качестве альтернативы вы можете разделить все три измерения на два измерения, но это займет слишком много места, что приведет к увеличению продолжительности работы алгоритма. Другой способ состоит в том, что вы напрямую используете 3D-координаты в новой CNN, созданной для 3D. Проблема в том, что 3D-точки обычно очень редко распределяются в пространстве, поэтому это очень расточительно и медленно.

Три демонстрации, которые произведут на вас впечатление

А как насчет выставочной и демо-секции? В этом году многие стенды были посвящены индустрии беспилотных автомобилей. Это означает, что кабины, скорее всего, продвигали свои алгоритмы обнаружения объектов, такие как программное обеспечение, которое может распознавать полосы движения и считывать дорожные знаки. Из всех живых демо нам запомнились три вещи.

1. Демонстрация отслеживания лица / выражения лица

Множество стендов демонстрировали отслеживание лиц и выражений лиц, в том числе HyprFace от BinaryVR, Animoji от Apple и AR Emoji от Samsung. Некоторые компании пытались реализовать аналогичный функционал с помощью 2D-камеры. Однако были явные ограничения в активных типах выражений, которые может отображать алгоритм.

Среди этих демоверсий, мы надеемся, вам больше всего понравилась наша! HyprFace от BinaryVR был единственной демонстрацией с функцией отслеживания языка. Еще одна вещь, на которую следует обратить внимание, - это качество отслеживания взгляда. Оно произвело впечатление даже на инженеров, работающих в компаниях с внутренними решениями для отслеживания взгляда.

В CVPR мы связались с профессионалами из разных областей и обсудили множество возможностей для бизнеса. В некоторых случаях автомобильные компании хотели обнаружить сонливость водителя, используя нашу технологию захвата движений лица в качестве основного алгоритма. Увидеть наше видение, преобразовать взаимодействие человека и компьютера, приблизиться к реальной жизни, было поистине потрясающим опытом. Чтобы обсудить с нами партнерские отношения, свяжитесь с нами здесь!

2. Демонстрация камеры с угловым обзором

Хорошие новости для беспилотных автомобилей: камера, которая видит за углом, находится в разработке! Это был проект доктора О’Тула из Стэнфорда, который был опубликован в журнале Nature. Нажмите здесь для дополнительной информации.

К сожалению, выходное изображение еще не самого высокого качества, чтобы можно было видеть мелкие детали, и существуют ограничения в материалах объекта, которые вы можете увидеть. Тем не менее, мы думали, что это многообещающая технология с точки зрения безопасности и преодоления того, на что способны люди.

3. Демонстрация отслеживания тела

На CVPR были также демонстрации отслеживания тела. Facebook продемонстрировал функцию отслеживания плотной позы, где вы можете виртуально примерить футболки со смайликами. Подробнее - здесь.

Большинство демонстраций отслеживания тела выполнялись на графических процессорах настольного уровня, за исключением демонстрации отслеживания тела Tencent AI Lab, уникальное преимущество которой заключалось в оптимизации для мобильных приложений.

Надеюсь, эта статья была интересной и содержательной для вас, чтобы вы узнали об основных моментах выставки CVPR 2018. Увидимся снова на CVPR 2019!

Мы BinaryVR; стремясь к беспрепятственному взаимодействию между ИИ и повседневной жизнью людей в области компьютерного зрения. Мы разрабатываем лучшие в мире решения для захвата движений лица, HyprFace и BinaryFace, поддерживая постоянную эволюцию нашей основной ценности.