Что такое аннотации к изображениям?

Аннотации к изображениям - это маркировка объектов на изображении для передачи их в качестве данных программам с использованием таких алгоритмов, как CNN. Это позволяет программам видеть и понимать вещи, как это делают люди. Надеясь, что в будущем они будут помогать нам и работать с нами в решении проблем и изучении неизведанного.

Аннотации

Аннотация знакома нам еще со школьных времен. Читая что-то, мы отмечали сомнительные области для дальнейшего использования. Даже способ аннотации различается в зависимости от людей, его цель остается той же. В компьютерном программировании под аннотацией понимается документация и добавление комментариев к логическому коду, чтобы сделать его более значимым.

Чем больше мы аннотируем сценарий, документ или код, тем глубже мы можем узнать, как все взаимосвязано?

Аннотации улучшат интеллект?

Люди могут учиться, понимать, рассуждать, формировать концепции, применять логику и принимать решения. Именно с нашим интеллектом у нас есть эти когнитивные способности. С помощью искусственного интеллекта мы стремимся подражать этому типу интеллектуального поведения машин. Мы хотим, чтобы машины работали на нас, помогали нам и даже работали с нами. Это могло бы стать лекарством от решения многих сложных проблем человеческого развития.

Чтобы машины вели себя как люди, их необходимо обучать с помощью наборов данных, называемых наборами обучающих данных. Аннотация - это способ пометки этих данных. Текстовая аннотация, звуковая аннотация, видео аннотация, аннотация изображения - вот некоторые из типов аннотаций. Использование большего количества обучающих данных может повысить точность алгоритма. Рассмотрим на примере автомобильного фаната. Такой специалист может легко обнаружить машину и в кратчайшие сроки определить, какая это. А человек, менее увлеченный автомобилями, будет делать это только в более медленном темпе. То, что отличает автомобильного фаната от нормального человека, - это знания об автомобилях. Машина, обученная с большим количеством обучающих данных, будет похожа на такого фаната в игре по поиску машин. И программа с меньшим объемом обучающих данных не сможет достичь такого уровня производительности.

Обучаем машины «видеть», как мы

Камеры делают фотографии, преобразовывая свет в двумерный массив чисел, называемый пикселями. Фотографировать - это не то же самое, что смотреть. Видеть на самом деле означает понимание. Мы можем вспомнить истории о людях, местах и вещах, как только взглянем на них.

Чтобы машина могла видеть, давать имена объектам, идентифицировать людей, делать выводы о геометрии вещей или понимать ситуации, как мы, требуется компьютерное зрение. Подобно тому, как человеческий ребенок учится делать это на собственном жизненном опыте и на примерах. Проводя такое же обучение, мы можем сделать это и на машинах.
Но один объект может выглядеть по-другому при изменении ракурса. Таким образом, системе необходимо передать несколько данных для идентификации одного объекта, и здесь вступает в игру аннотация к изображению.

Аннотация изображения

Аннотации к изображению - это выделение различных объектов на изображении и их маркировка. Аннотации сокращают область поиска объектов на изображении для машин, координаты метки вокруг объектов на изображении помогают в этой задаче. Аннотированные изображения подаются в системы с использованием алгоритма классификации изображений, называемого Сверточная нейронная сеть (CNN). Алгоритм состоит из нескольких нейронов, таких как узлы, которые принимают входные данные и отправляют выходные данные другим узлам. Которые организованы в различные иерархические слои, подобные человеческому мозгу.

CNN разбивает изображения на пиксели или иногда на более мелкие группы пикселей, называемые фильтром. Сеть выполняет на них серию вычислений и сравнивает их с пикселями определенных шаблонов, которые ищет сеть. На первом уровне CNN обнаруживает низкоуровневые шаблоны, такие как грубые края и кривые. По мере того, как сеть выполняет больше сверток, она начинает определять особенности конкретных объектов. Более подробную информацию о нейронных сетях можно найти здесь.
В компьютерном зрении CNN - это мозг, а аннотации изображений - это метод питания этого мозга. Аннотации делают изображения доступными для компьютерного зрения с помощью различных методов. Для аннотации изображений используются различные типы методов:

Ограничительная рамка
Многоугольный
Ключевой момент
Кубоид
Семантическая сегментация
Полилиния
Более подробное изучение техники аннотации вы можете найти здесь.

Почему люди должны это делать?

Аннотирование изображений в соответствии с задачей машины - очень важная вещь. Машины учатся видеть с помощью предоставленных им проб, обработанных с помощью аннотаций к изображениям. Качество аннотаций никогда не может быть снижено, поддержание которого может быть сложной задачей при автоматическом аннотировании изображений. Людям легко аннотировать изображения в соответствии с предоставленным контекстом. Искусственный интеллект развивается, и для него выполнение простейших рассуждений по-прежнему является сложной задачей. Ему нужно преодолеть большее расстояние, чтобы стать гуманным.

ИИ-компании зависят от краудсорсинговых компаний, таких как ИНФОЛКС, в получении аннотирования большого количества данных в установленные сроки. Аннотированные изображения людей убеждают компании, занимающиеся ИИ, что эти данные были обработаны человеческими рассуждениями. И это поможет очеловечить машины.

Первоначально опубликовано на https://www.infolks.info 28 сентября 2019 г.