Денис Души, Сандро Пеззелле, Тассило Кляйн и Мойн Наби (ML Research, Берлин)

Искусственный интеллект не только упрощает нашу жизнь, автоматизируя рутинные и утомительные задачи, но и открывает бесчисленные возможности для людей с ограниченными возможностями и обещает им уникальные способы познания мира. Индустрия вспомогательных технологий вышла за рамки инвалидных колясок, протезов, аппаратов зрения и слуховых аппаратов благодаря технологиям на базе искусственного интеллекта. Например, вспомогательные визуальные технологии, такие как Seeing AI или OrCam, помогают слепым людям преодолевать повседневные проблемы, облегчая выполнение простых повседневных задач и устраняя барьеры доступности. Такие методы компьютерного зрения, как распознавание объектов, понимание сцены, визуальный ответ на вопрос (VQA) и визуальный диалог, обещают значительно облегчить жизнь слепых.

В связи с этим исследовательское сообщество работает над использованием моделей компьютерного зрения для развития вспомогательных визуальных технологий для слепых. Почти 10 лет назад группа исследователей разработала приложение VizWiz, которое позволило слепым пользователям делать снимки на свои телефоны, задавать вопросы об этих снимках и получать голосовые ответы от удаленно зрячих сотрудников практически в реальном времени. Перенесемся в настоящее время и в свете последних достижений в моделях VQA: исследователи из сообщества компьютерного зрения воспользовались данными, собранными через приложение, и составили набор данных VizWiz, используя более 31 000 вопросов, собранных от слепых людей. В соответствии с ограничениями конфиденциальности, сначала для данных был применен процесс строгой фильтрации и анонимности, чтобы исключить любые образцы, которые могли бы раскрыть личности людей. Однако оставался вопрос, как мы можем разработать зрячие модели VQA в естественных условиях; позволяя слепым людям делать снимки объектов, задавать вопросы об этих изображениях и своевременно получать устные ответы.

Грандиозная задача VizWiz: развитие исследований вспомогательных визуальных технологий

В этом году конференция ECCV была посвящена Грандиозному вызову VizWiz с целью побудить исследовательское сообщество объединить усилия, решить проблемы, связанные с набором данных VizWiz и задачей VQA в целом, и предложить новые подходы, отвечающие потребностям слепых. . Мы стремимся использовать возможности искусственного интеллекта на благо общества, поэтому команда SAP Leonardo Machine Learning Research приняла участие в испытании и вошла в тройку лучших команд. Мы также представили расширенную аннотацию на семинаре VizWiz, в котором подробно описаны наши решения и подчеркнуты недостатки и ограничения текущих моделей VQA и показателей оценки.

Проблемы и ограничения набора данных VizWiz

Принимая во внимание, что модели и алгоритмы VQA уже продемонстрировали значительный прогресс за последние несколько лет; они обычно хорошо работают с искусственно подобранными наборами данных с высококачественными и четкими изображениями, а также с прямыми письменными вопросами, которые алгоритм может легко определить и ответить на них. Однако когда дело доходит до развертывания таких алгоритмов в реальных сценариях, есть несколько недостатков и ограничений.

В отличие от стандартных наборов данных VQA, набор данных VizWiz основан на реальных данных, полученных от слепых людей; что делает этот набор данных одновременно привлекательным и сложным. Например, изображения, предоставляемые слепыми людьми, часто бывают низкого качества (например, см. Нечеткие изображения во втором ряду рисунка 1). Более того, задаваемые вопросы в основном разговорные или имеют проблемы с записью звука. Кроме того, во многих случаях на вопросы невозможно ответить из-за нерелевантных или расфокусированных изображений объекта, связанного с вопросом (например, см. Примеры «без ответа» и «неподходящие» на рисунке 1). Чтобы решить эти проблемы, VizWiz Grand Challenge включал две задачи для набора данных: 1) Предсказать ответ на визуальный вопрос и 2) Предсказать, нельзя ли ответить на визуальный вопрос.

Наши решения VizWiz Challenge

Задача первая: прогнозирование ответов на визуальные вопросы

Наше решение для первой задачи сосредоточено вокруг неопределенности или субъективности большинства ответов в VizWiz. Мы используем понятие обучения с учетом неопределенности в моделях VQA. Мы моделируем неопределенность ответа в соответствии с соглашением между людьми-аннотаторами, то есть частотой каждого ответа в основном наборе истинности. Мы используем функцию потерь, которая учитывает вклад и неопределенность каждого ответа, данного людьми-аннотаторами. Потери вычисляются как средневзвешенное значение отрицательных логарифмических вероятностей каждого уникального достоверного ответа. Это позволяет оптимизировать одновременно несколько правильных ответов.

Задача вторая: прогнозирование возможности ответа на вопрос

Для второй задачи мы используем бинарную модель, аналогичную той, которая использовалась для предсказания ответа, но на этот раз мы обучаем ее бинарными метками (отвечающий / неотвечаемый). Предварительный анализ набора данных показал, что большинство выборок поддаются ответу. Поскольку метрикой оценки для прогнозирования того, можно ли ответить на визуальный вопрос, является средняя точность, мы сбалансировали набор данных, увеличив выборку неопровержимых выборок. Это позволило нам превзойти современные достижения и во втором задании.

Подробный взгляд на задачу VQA и ее показатели оценки

Решение проблемы - это только первый шаг к тонкой настройке алгоритмов VQA, чтобы помочь слепым людям преодолевать их повседневные проблемы. Мы подробно остановились на наших решениях и рассмотрели различные недостатки моделей VQA в нашем расширенном аннотации: «Когда распределение является ответом: анализ ответов в VizWiz». С одной стороны, мы проанализировали распределение ответов в наборе данных VizWiz и показали, как оно смещено в сторону очень небольшого числа частых ответов. Модели могут использовать этот дисбаланс для достижения высочайшего уровня производительности, просто предсказывая наиболее частые ответы, не научившись понимать изображения и задаваемые вопросы. С другой стороны, текущие показатели оценки VQA имеют несколько недостатков. Во-первых, он не отражает семантического сходства между разными ответами, например, «Собака» и «Чихуахуа» считаются такими же разными, как «Собака» и «Торт». Во-вторых, не учитывается субъективность предоставленных ответов. В-третьих, возможность достижения точности даже тогда, когда предсказанный ответ появляется только один или два раза в базовом наборе истинности, побуждает модель предсказывать «безопасный» ответ, который является наиболее частым. Мы считаем, что исследовательскому сообществу необходимо продолжить работу по устранению этих недостатков, чтобы разработать более надежные и точные модели VQA, на которые мы можем положиться в реальных сценариях, например, в контексте вспомогательных визуальных технологий.

Может ли компьютерное зрение быть «искусственным» глазом для слепых?

Поскольку технология все еще находится в зачаточном состоянии, значительный прорыв еще впереди. Задача VizWiz инициировала диалог среди исследовательского сообщества для стимулирования дальнейших исследований по разработке систем VQA, адаптированных к потребностям слепых людей. В конечном итоге цель состоит в разработке алгоритмов, которые могут хорошо работать при нескольких ограничивающих факторах, часто встречающихся в реальных ситуациях, таких как нехватка данных, дисбаланс меток, зашумленные метки, обоснованность концепций и возможность компоновки. Это приведет к появлению передовых вспомогательных визуальных технологий, которые когда-нибудь обещают изменить жизнь слепых людей, облегчая выполнение простых повседневных задач и предоставляя им больше независимости и свободы.

Об авторе: Денис Души учится в магистратуре Миланского политехнического университета и Королевского технологического института KTH в Стокгольме. Во время стажировки в SAP Leonardo Machine Learning Research он сосредоточился на визуальных ответах на вопросы и адаптации предметной области.