Введение

Исследования в области компьютерного зрения стремительно развивались в последние несколько лет благодаря достижениям в области глубокого обучения, увеличению объема вычислительной памяти и стремительному росту больших наборов визуальных данных. С каждым днем ​​появляется все больше приложений компьютерного зрения в таких разнообразных областях, как автономные транспортные средства, здравоохранение, розничная торговля, энергетика, лингвистика и т. Д.

В этой статье я представлю 5 основных тенденций, которые доминировали в исследованиях компьютерного зрения в 2018 году. Исчерпывающий обзор невозможен, поэтому я расскажу только о некоторых достижениях в той области, которая произвела на меня наибольшее впечатление.

1 - Синтетические данные

Синтетические данные были огромной тенденцией в исследованиях компьютерного зрения в прошлом году. Это данные, искусственно созданные для обучения моделей глубокого обучения. Например, набор данных SUNCG используется для моделирования внутренней среды, набор данных городских пейзажей используется для вождения и навигации, а набор данных SURREAL синтетических людей используется для изучения оценки позы и отслеживания. Давайте посмотрим на некоторые из лучших работ с использованием синтетических данных в этом году:

  • В статье Насколько хорошо вы должны маркировать авторы рассматривают, насколько грубыми должны быть обучающие метки, чтобы обеспечить хорошее качество сегментации из современных архитектур CNN. Это важно, потому что синтетические данные обычно известны своим безупречным качеством. Выполняя свои эксперименты с набором данных Auto City, авторы доказывают, что окончательное качество сегментации действительно сильно коррелирует с количеством времени, затрачиваемого на маркировку, но не столько с качеством каждой отдельной метки.

  • Soccer on Your Tabletop представляет собой систему, которая может принимать видеопоток футбольного матча и преобразовывать его в движущуюся трехмерную реконструкцию, которую можно проецировать на стол и просматривать в дополненной реальности. Система извлекает ограничивающие рамки игроков, анализирует человеческие фигуры с помощью моделей оценки позы и глубины и, наконец, производит поразительно точную реконструкцию трехмерной сцены.

  • Способности человека одновременно учиться из различных источников информации по-прежнему отсутствуют в большинстве существующих подходов к изучению признаков. Междоменное самоконтролируемое многозадачное функциональное обучение с использованием синтетических изображений устраняет этот пробел, предлагая оригинальную многозадачную сеть глубокого обучения, которая использует синтетические изображения для лучшего изучения визуальных представлений в кросс-модальной обстановке. Обучение сети с помощью синтетических изображений резко сокращает количество аннотаций к данным, необходимых для многозадачного обучения, что требует больших затрат и времени. Чтобы преодолеть междоменный разрыв между реальными и синтетическими данными, состязательное обучение используется в методе адаптации предметной области без учителя, который повышает производительность при передаче полученных знаний о визуальных характеристиках в реальные задачи.

  • Обучение глубоких сетей с синтетическими данными предлагает усовершенствованный подход к обучению данных глубинных нейронных сетей для обнаружения реальных объектов, основанный на рандомизации синтетических данных в предметной области. Рандомизация домена снижает потребность в высококачественных смоделированных наборах данных за счет преднамеренного и случайного нарушения текстур окружающей среды, чтобы заставить сеть сфокусироваться и идентифицировать основные характеристики объекта. Чтобы повысить производительность процесса, выполняется дополнительное обучение на реальных данных в сочетании с синтетическими данными, что устраняет разрыв между реальностью и, следовательно, дает лучшие результаты производительности. Были предложены различные подходы для использования потенциала синтетических данных, что предполагает дальнейшее развитие в этой области в ближайшие годы.

Новейшие достижения в области глубокого обучения - из источника, которому можно доверять. Подпишитесь на еженедельное погружение во все, что связано с глубоким обучением, подготовленное экспертами, работающими в этой области.

2 - Визуальный ответ на вопрос

Визуальные ответы на вопросы (VQA) - это новая захватывающая задача, сочетающая в себе методы НЛП и компьютерного зрения. Обычно это включает в себя показ изображения компьютеру и постановку вопроса об этом изображении, на который компьютер должен ответить. Ответ может быть в любой из следующих форм: слово, фраза, ответ «да / нет», ответы с несколькими вариантами ответов или ответ с заполнением пробелов.

В последнее время для решения этой задачи были разработаны различные наборы данных, такие как DAQUAR, Visual7W, COCO-QA, VQA. Давайте посмотрим на некоторые из лучших моделей, которые ответили на вопросы в этом году.

  • Embodied QA направлен на создание полностью интеллектуальных агентов, которые могут активно воспринимать, естественным образом общаться в диалоге, основанном на окружающей среде, а также действовать и выполнять команды. Посредством ориентированной на цель интеллектуальной навигации в трехмерном окружении агента просят отвечать на вопросы, основанные на распознавании объектов, а также на визуальном обосновании и понимании. Интересно, что агент использует эгоцентрическое видение исключительно для навигации по своему окружению. Это означает, что агенту не предоставляется карта и он обучается только с помощью необработанных сенсорных входных данных (пикселей и слов) и должен полагаться на здравый смысл при навигации в незнакомой среде.

  • Стандартные модели VQA пассивно полагаются на большие статические наборы данных - в отличие от интерактивного характера человеческого обучения, которое более эффективно и менее избыточно. Обучение, задавая вопросы заполняет этот пробел в исследованиях, вводя более интерактивную модель VQA, имитирующую естественное обучение. В этой статье агент обучается учиться как человек, оценивая свои ранее полученные знания и задавая хорошие и актуальные вопросы, которые максимизируют обучающий сигнал от каждой пары изображение-вопрос, отправленной оракулу. В документе также показано, как интерактивный опрос значительно снижает избыточность и необходимое количество обучающих выборок для достижения повышения точности на 40%.

  • Inverse Visual QA (iVQA) присоединяется к другим моделям, которые направлены на повышение производительности стандартных моделей VQA, уделяя особое внимание развитию визуального обоснования. В этой статье популярная задача VQA инвертируется, так что цель состоит в том, чтобы сгенерировать вопрос из пары изображение / ответ. Предвзятость в обучении стандартных VQA подрывает процесс оценки. iVQA использует частично сгенерированные вопросы с менее предвзятой обучающей априорией, соответствующей паре изображение-ответ, для достижения большей визуальной обоснованности.

  • Интерактивное обеспечение качества устраняет один из недостатков стандартных моделей VQA, которые в основном пассивны и не обучают полностью интеллектуального агента, способного перемещаться, взаимодействовать и выполнять задачи в своей среде. Модель использует метод многоуровневого контроллера с семантической пространственной памятью и собирает богатый набор данных смоделированных реалистичных сцен и широкий спектр вопросов для оценки модели. Он продвигает стандартный VQA к конечной цели создания полностью визуально интеллектуальных агентов.

  • Эффективная оценка производительности современных современных моделей VQA и предотвращение их использования предвзятых предварительных оценок обучения - это область, которая все еще находится в стадии разработки. С этой целью модель Основанный визуальный контроль качества предлагает новый метод, который напрямую отделяет объекты, распознаваемые от правдоподобных предыдущих ответов, заставляя модель быть более визуально обоснованной. Благодаря отличным результатам, о которых сообщается в статье, и нынешнему вниманию сообщества к этому направлению исследований, это многообещающий знак для будущих инновационных методов, способствующих дальнейшему развитию моделей VQA.

3 - Адаптация домена

Есть несколько конкретных направлений исследований, которые были в тренде в 2018 году, и одно из них - адаптация предметной области. Это поле на самом деле тесно связано с синтетическими данными. Он решает большую проблему сбора помеченных наборов данных для контролируемого обучения и обеспечения надежности и достаточного разнообразия данных. По сути, как мы можем использовать один вид данных, чтобы подготовить сеть к работе с другим типом?

  • Неконтролируемая адаптация домена с обучением по подобию занимается адаптацией домена с использованием состязательных сетей. Автор просит одну сеть извлекать функции из помеченного исходного домена, а другую сеть - из немаркированного целевого домена с похожим, но различным распределением данных. Классификация, в которой модель обучается отличать целевой прототип от всех других прототипов, отличается. Чтобы пометить изображение из целевого домена, автор сравнивает встраивание изображения с встраиванием изображений прототипа из исходного домена, а затем присваивает метку его ближайшим соседям.

  • Преобразование изображения в изображение для адаптации предметной области рассматривает адаптацию предметной области для сегментации изображения, которая широко используется в беспилотных транспортных средствах, медицинской визуализации и во многих других областях. По сути, здесь методы адаптации предметной области должны найти структуру отображения от исходного распределения данных к целевому распределению данных. В этом подходе используются 3 основных метода: (i) извлечение признаков, не зависящее от предметной области (распределения признаков, извлеченных как из исходного, так и из целевого доменов, неразличимы), (ii) доменная реконструкция (вложения могут быть декодированы обратно в исходный и целевой домены) и (iii) согласованность цикла (сопоставления изучены правильно).

  • Условная GAN для структурированной адаптации доменов предлагает новый метод преодоления проблем, связанных с междоменными различиями в моделях семантической сегментации, с помощью метода адаптации структурированной предметной области. В отличие от адаптации предметной области без учителя, метод не предполагает существования междоменного общего пространства признаков, а скорее использует условный генератор и дискриминатор. Следовательно, условная GAN интегрирована в структуру CNN, которая передает характеристики синтетических изображений в функции, подобные реальному изображению. Результаты метода превосходят предыдущие модели, подчеркивая растущий потенциал синтетических наборов данных в продвижении задач зрения.

  • Обучение моделей на основе глубокого обучения опирается на большие аннотированные наборы данных, что требует большого количества ресурсов. Несмотря на достижение высочайшего уровня производительности во многих задачах визуального распознавания, междоменные различия по-прежнему представляют собой большую проблему. Для передачи знаний между доменами Максимальное несоответствие классификатора для неконтролируемой адаптации домена использует новый метод состязательного обучения для адаптации домена без необходимости какой-либо маркировочной информации из целевого домена. Было замечено, что минимизация расхождений между оценками вероятности из двух классификаторов для выборок из целевой области может создавать отличительные по классам признаки для различных задач, от классификации до семантической сегментации.

4 - Генеративные состязательные сети

2018 год определенно был большим годом для Generative Adversarial Networks (GAN), самого успешного класса генеративных моделей для компьютерного зрения. Давайте посмотрим на некоторые из лучших работ, улучшающих модели GAN в этом году:

  • Условные GAN уже широко используются для моделирования изображений, но они также очень полезны для передачи стилей. В частности, они могут изучать характерные особенности, соответствующие определенным элементам изображения, а затем изменять их. В PairedCycleGAN for Makeup авторы представляют основу для модификации макияжа на фотографиях. Они обучают отдельные генераторы для разных лицевых компонентов и применяют их отдельно, извлекая лицевые компоненты с другой сетью.

  • Синтез изображения глаза с генеративными моделями рассматривает проблему создания изображений человеческого глаза. Это интересный вариант использования, потому что мы можем использовать сгенерированные глаза для решения задачи оценки взгляда - на что смотрит человек? Авторы используют вероятностную модель синтеза формы глаз и архитектуру GAN для создания глаз, соответствующих этой модели.

  • Генеративное изображение в живописи с контекстным вниманием рассматривает сложную проблему заполнения пробелов на изображении. Обычно для рисования нам нужно иметь представление о лежащей в основе сцене. Вместо этого в этой работе используется модель GAN, которая может явно использовать функции из окружающего изображения для улучшения генерации.

  • Современные современные модели генерации текста в изображение на основе GAN кодируют текстовые описания только на уровне предложения и пропускают мелкозернистую информацию на уровне слов, которая могла бы улучшить качество сгенерированных изображений. AttnGAN предлагает новый механизм внимания на уровне слов, который гораздо более эффективен при создании сложных сцен.

  • В отличие от распространенного мнения, что успех нейронных сетей в основном обусловлен их сильной способностью учиться на основе данных, Deep Image Prior демонстрирует важность структуры сети для построения хороших априорных изображений. В статье предлагается сеть декодеров в качестве априорной для задач визуализации. Интересно, что авторы показывают, что генераторная сеть подходит для сбора большого количества низкоуровневой статистики изображений до любого обучения. Авторы также используют этот подход для исследования информационного содержания, сохраняемого на разных уровнях сети, путем создания так называемых естественных прообразов. Интересно, что при использовании предварительного изображения в качестве регуляризатора, предварительное изображение, полученное даже из очень глубоких слоев, по-прежнему захватывает большой объем информации.

  • Несмотря на успех GAN, не было зарегистрировано значительного успеха использования их дискриминаторной сети в качестве универсальной функции потерь для общих контролируемых задач, таких как семантическая сегментация. Matching Adversarial Networks подчеркивает причину этого, а именно то, что функция потерь не зависит напрямую от наземных истинных меток во время обучения генератора, что приводит к случайному производству выборок из распределений данных без корреляции отношений ввода-вывода контролируемым образом. . Чтобы преодолеть это, в документе предлагается заменить дискриминатор соответствующей сетью - с учетом как наземных выходных данных, так и сгенерированных примеров - чему способствует сиамская сетевая архитектура.

5 - Описание трехмерных объектов

Понимание трехмерных объектов имеет решающее значение для систем глубокого обучения для успешной интерпретации и навигации в реальном мире. Например, сеть может найти автомобиль на изображении улицы, раскрасить все его пиксели и классифицировать его как автомобиль. Но полностью ли он понимает, где находится машина на изображении по отношению к другим объектам на улице?

Работа в области понимания трехмерных объектов охватывает широкий спектр исследовательских областей, включая обнаружение объектов, отслеживание объектов, оценку позы, оценку глубины, реконструкцию сцены и многое другое. Давайте рассмотрим основные статьи в этой области в 2018 году:

  • Detect-and-Track - это расширение Mask R-CNN, одного из самых многообещающих подходов к сегментации изображений, появившегося еще в 2017 году. Авторы предлагают архитектуру 3D Mask R-CNN, которая использует пространственно-временные свертки для извлечения признаков и распознавания позирует прямо на коротких клипах. Полную архитектуру можно увидеть ниже. Он обеспечивает самые современные результаты в оценке позы и отслеживании движения человека.

  • Позо-чувствительные вложения для повторной идентификации личности решают проблему повторной идентификации человека. Обычно эта проблема решается с помощью методов на основе поиска, которые выводят меры близости между изображением запроса и сохраненными изображениями из некоторого пространства для встраивания. В документе вместо этого предлагается новый способ включения информации о позе непосредственно в вложение и улучшения результатов повторной идентификации. Вы можете увидеть архитектуру ниже.

  • 3D позы из одного изображения представляет собой очень удивительный подход к оценке поз. Он генерирует трехмерную сетку человеческого тела напрямую через сквозную сверточную архитектуру, которая сочетает в себе оценку позы, сегментацию человеческих силуэтов и создание сетки. Ключевым моментом является то, что он использует SMPL, статистическую модель формы тела, которая обеспечивает хорошую априорность формы человеческого тела. Следовательно, ему удается построить трехмерную сетку человеческого тела из одноцветного изображения.

  • Flow Track решает проблему слежения за объектами. Это расширение фильтров дискриминационной корреляции, которые изучают фильтр, соответствующий объекту, и применяют его ко всем видеокадрам. Архитектура модели имеет пространственно-временной механизм внимания, который охватывает различные временные рамки видео.

  • Так же, как Flow Track, описанный выше, Correlation Tracking также занимается отслеживанием объектов и также использует фильтры корреляции. Однако он не использует глубокую нейронную сеть; вместо этого он содержит информацию о надежности - это означает, что авторы добавляют термин к целевой функции, который моделирует надежность изученного фильтра.

Заключение

Надеюсь, вам понравился этот краткий обзор. Если вы заинтересованы в более подробном изучении этих тем исследований компьютерного зрения, я предлагаю вам ознакомиться с статьями, представленными на CVPR, ICLR и NeurIPS - самых престижных конференциях в области компьютерного зрения. машинное обучение и искусственный интеллект.

Примечание редактора. Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Являясь независимой редакцией, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее создавать лучшие модели машинного обучения.