В большинстве случаев CNN (сверточные нейронные сети) посвящены классификации или сегментации изображений. Цель этой статьи - представить новую развивающуюся парадигму для изучения значимых функций из изображения, совместимого с объектным обучением младенцев (0–2 года), которое называется объектно-ориентированное обучение.

Что такое объектно-ориентированное обучение?

Предположение моделей объектно-ориентированного обучения очень простое: они предполагают, что изображение состоит из K различных объектов (включая фон).

Модель обучается неконтролируемым образом для идентификации K различных объектов, поэтому объединяется в изображение («восстановленное изображение») для оптимизации модели с использованием разницы между входным изображением и восстановленным изображением.

Вход и выход

Вход этой модели - это просто изображение, а выход:

  • реконструированные объекты, набор K изображений, содержащих объекты
  • K маски, где i-я маска указывает, какие пиксели принадлежат i-й объект
  • скрытое пространство для каждого объекта (т. Е. Вектор чисел), которое можно использовать для последующих задач, таких как классификация свойств объекта или использовать все скрытые пространства вместе для оценки глобальных характеристик изображения, например, если изображение представляет собой число от 0 до 9 (например, набор данных MNIST).

Наборы данных

Обычно наборы данных объектно-ориентированного обучения очень просты в смысле форм объектов внутри изображений. Кроме того, объекты имеют очень четкий цвет по сравнению с фоном, чтобы их было легко идентифицировать.

Метрики

Сложная и интригующая часть - это выбор метрики, то есть функции, которая определяет качество нашего объектно-ориентированного ученика (с этого момента OCL). Я сказал твердо, потому что по сравнению с другими категориями моделей, такими как классификатор изображений или генераторы (где вы можете использовать точность, оценку f1 или вероятность регистрации), метрика OCL должна быть инвариантным к перестановкам, потому что порядок, в котором наш объектно-ориентированный обучающийся находит объект, не может совпадать с набором данных , но любой порядок допустим, пока OCL находит объекты.

Например, если наша модель находит в этом порядке {куб, сфера, фон}, метрика должна быть такой же, если модель находит в этом порядке {фон, куб, сфера} даже если в наборе данных порядок {сфера, фон, куб}.

ARI

Популярной метрикой инварианта перестановки, используемой в моделях OCL, является ARI (скорректированный индекс ранда), который первоначально был введен для сравнения кластеризации, но теперь также используется для сравнения истинных масок объекта. с объектами предсказанными масками из модели.

Уловка для адаптации этой метрики кластеризации к OCL заключается в том, чтобы рассматривать каждый объект как кластер и каждый пиксель как наблюдение данных: в основном каждый пиксель назначается объекту (т. Е. Кластеру) с использованием маски объекта в который имеет наивысшее значение (например, если пиксель [3, 10] имеет значение 0,1 для объекта 1, 0,5 для объекта 2 и 0,4 для объекта 3, поэтому этот пиксель назначается «кластеру 2»)

Модельные архитектуры

На момент написания этой статьи нет преобладающей архитектуры модели, но есть много разных, которые хорошо работают, например, у нас есть:

  • Слот внимания представляет механизм внимания вместе с повторяющимся процессом для точной оценки скрытого пространства каждого объекта, за которым следует стандартный декодер, чтобы получить маску и изображение объекта.

  • MONet использует UNet для получения масок для каждого объекта, за которым следует Variational AutoEncoder для получения объектов реконструированных изображений и объекта скрытого пространства

  • GENESIS имеет вариационный автоэнкодер для оценки масок каждого объекта, за которым следует другой VAE, который получает на входе image и компонентную маску, чтобы получить изображение объекта и скрытое пространство.

  • ПРОБЕЛ моделирует передний план с ограничивающими рамками, а фон моделируется как набор K объекты

использованная литература

  1. Коллекция Deepmind Object Centric Learning Datasets: https://github.com/deepmind/multi_object_datasets (Multi-dsprites, Objects Room, CLEVR, Tetrominoes)
  2. Берджесс, С. и др. «MONet: неконтролируемая декомпозиция и представление сцены. ArXiv abs / 1901.11390 (2019) »
  3. Энгельке, Мартин и др. «ГЕНЕЗИС: генеративный вывод сцены и выборка с объектно-ориентированными скрытыми представлениями. ArXiv abs / 1907.13052 (2020): n. стр. »
  4. Локателло, Франческо и др. «Объектно-ориентированное обучение со свободным вниманием. ArXiv abs / 2006.15055 (2020): n. стр. »
  5. Lin, Z. et al. «ПРОСТРАНСТВО: неконтролируемое объектно-ориентированное представление сцены через пространственное внимание и декомпозицию. ArXiv abs / 2001.02407 (2020): n. стр. »