Авторы: Moji Solgi ¹ и Barry Friedman ²

Распознавание лиц (FR) как технология в последнее время является предметом многочисленных дискуссий как среди политиков, так и среди практиков ИИ. И это вполне оправданно. Это одна из самых эффективных технологий для идентификации и отслеживания людей.

Здесь мы представляем беседу в форме вопросов и ответов между политическим аналитиком и технологом. Мы надеемся, что это поможет осветить несколько ключевых моментов для читателя, интересующегося анализом затрат и выгод этой технологии. Что еще более важно, мы надеемся, что он передает сообщение о том, что дьявол кроется в деталях, и если дебаты не будут включать их исследование, мало надежды на прогресс в области политики и принятия решений.

Вам нужно узнать, что такое распознавание лиц? Прочтите это или быстро просмотрите рисунок ниже:

В Насколько точен FR? Мы слышали разные мнения о состоянии технологии - некоторые эксперты говорят, что она еще далека от готовности к полевому развертыванию, но все же мы слышим рассказы как на международном, так и на местном уровне об использовании FR. разными способами. Нам нужно понять, насколько точна технология FR, а также ожидаемые темпы разработки. Я предполагаю, что ответ на этот вопрос зависит от конкретных обстоятельств (например, неподвижные люди в аэропорту или прямые трансляции с камер видеонаблюдения). Можете ли вы дать нам представление о том, насколько близка технология FR к использованию в полевых условиях, например, на теле? -камеры?

AКраткий ответ: Мы приближаемся с каждым годом, но нам нужно как минимум на два порядка уменьшить количество ошибок, чтобы сделать технологию пригодной для приложений реального времени с несовместимыми объектами, такими как тела. изношенные фотоаппараты.

Я использую FR в смысле его наиболее распространенного определения: идентификация лиц "один ко многим" на двумерных изображениях с камеры. В основе FR лежат два основных алгоритма. Точность обоих вопросов имеет значение для сквозного приложения FR:

  1. Распознавание лиц (FD): по изображению найдите, где находятся лица, если они есть
  2. Face Matching (FM): учитывая базу данных лиц (целевая база данных) и обнаруженное лицо на изображении (шаг 1), определить, совпадает ли лицо обнаруженного лица с одним из лиц в базе данных.

Точность каждого из этих шагов зависит от конкретных обстоятельств (как вы упомянули в вопросе, качества датчика изображения, расстояния от лица до камеры, размытия движения, угла лица, окклюзии, вычислительной мощности на FR система и т. д.). К сожалению, это невозможно упростить. В зависимости от обстоятельств частота ошибок может составлять от 20% до 0,1%.

Существует огромная пропасть между тем, что используется в научных публикациях и маркетинговых материалах, и проблемами реального приложения. Любым результатам, показывающим точность более 90%, нельзя доверять, поскольку алгоритмы будут работать вне контролируемых сред и узких приложений.

Чтобы дать наглядный пример этой разницы между опубликованными показателями и реальностью, давайте рассмотрим (реальный) анекдот исследователя ИИ, который развернул функцию распознавания лиц в продукте, который должен работать в дикой природе. Интересно посмотреть, как каждое ограничение реального приложения снижает точность:

  1. Из-за требований к скорости они не могли использовать лучшие модели с указанной точностью ›99,5% в наборах данных эталонных тестов.
  2. В итоге они использовали модель обучения, которая удовлетворяла их требованиям к среде выполнения на ЦП и, как сообщалось, имела точность ›98,9% для общедоступных наборов данных.
  3. После обучения на всех общедоступных наборах данных, которые они могли использовать, а также на внутренних данных, точность составила только 80%, отзывчивость 70% (обратите внимание, что у них не было цифр «точности», и это потому, что точность / отзыв лучше переводились на конкретная проблема, которая волновала их клиентов.)
  4. Затем мы попробовали сторонний алгоритм обнаружения лиц и получили точность 71% (на 9% ниже, чем у компании) и 36% запоминаемости (на 33% меньше, чем у компании). Это произошло несмотря на то, что сторонний алгоритм имел очень высокие сообщенные показатели точности, в том числе был лидером в последнем тесте поставщиков распознавания лиц (FRVT), опубликованном Национальным институтом стандартов и технологий. (NIST) .

В. Есть некоторые, кто продвигает тесты поставщиков распознавания лиц (FRVT) Национального института стандартов и технологий как объективный способ измерения точности алгоритмов FR. Но мы слышали от некоторых компаний, что это плохая оценка, не подходящая для более передовых технологий. Есть ли у вас мысли о FRVT? Или о других способах сравнения относительной точности различных алгоритмов FR?

Краткий ответ: FRVT интересен и информативен, но его абсолютно не следует интерпретировать как объективный способ измерения точности алгоритмов FR в реальном мире.

Я полностью согласен с двумя основными утверждениями отчета FRVT:

  1. С 2013 года в искусственном интеллекте, особенно в Франции, произошла «промышленная революция».
  2. Революция еще не окончена.

Однако, к сожалению, основные полезные выводы на этом заканчиваются. Приведенные цифры на первый взгляд кажутся многообещающими и могут быть реалистичными для некоторых ограниченных приложений. Как и все в жизни, дьявол кроется в деталях:

  1. [Основная проблема] Источником тестовых наборов данных в основном являются общедоступные наборы данных и данные из Интернета. Конкурирующие алгоритмы принадлежат гигантским технологическим компаниям, которые десятилетиями собирали одни и те же источники данных для обучения своих моделей. Это нарушает принцип слепого тестирования (называемого в терминологии машинного обучения «непересекающимся тестированием»); если тренировать и тестировать алгоритмы на одних и тех же наборах данных, они часто в конечном итоге запоминают увиденные данные. Вся суть машинного обучения - это обобщение до невидимых данных.
  2. Еще одно важное различие между реальными приложениями и наборами данных FVRT - это дисбаланс между примерами совпадений и несоответствий. Предположение, что определенное совпадение превышает частоту несоответствия, имеет значительные последствия для чисел точности. Кажется, что это в основном игнорируется, и предполагается коэффициент 0,5. Коэффициент совпадения 0,001 не является чем-то необычным для реальных приложений.
  3. Только один из их многочисленных сценариев, рассмотренных в исследовании, имеет отдаленное отношение к FR на нательных камерах, и цифры точности отрезвляют для этого. Не сотрудничающие субъекты (стр. 129 в отчете в формате PDF): Лучшая модель (microsoft_4) дает 4% ложноположительных результатов для N ~ = 690k. Если бы вам пришлось уменьшить FPIR до 0,1% (одно из тысячи), вы пропустили бы 10% совпадений (FNIR = 0,10).
  4. В отчете не упоминаются требования к памяти для работы выигравших алгоритмов FR. Из-за этого сложно понять, возможно ли запускать их на периферийных устройствах. Общее время (включая создание шаблона и поиск) составляет около 1 секунды на процессоре Intel 2,2 ГГц для ведущих конкурентов.
  5. Отчет 1: N (наиболее релевантный для FR по сценарию body-cam) не включает подробную разбивку показателей точности для различных демографических факторов, таких как раса, возраст и пол. Следовательно, мы не можем знать, как они работают с группами меньшинств.
  6. Отчет 1: 1 содержит подробную разбивку показателей точности в зависимости от страны рождения (если мы можем принять это как прокси для расы) и возраста. Результаты очень интересны, но, как ни странно, не показывают явной предвзятости в отношении мужского или белого населения.
  7. Противоинтуитивное наблюдение со страницы 125, рис.93 отчета 1: 1: точность неизменно выше для азиатских стран (Китай, Вьетнам, Филиппины, Индия), чем для стран с (по крайней мере, некоторыми) европейскими корнями (Венесуэла, Эквадор). , Украина, Россия).

В Соответственно, когда компании говорят, что их продукт должен быть настроен так, чтобы обеспечивать соответствие только с уровнем точности «99%», что это означает?

Краткий ответ: такие показатели предназначены для использования в качестве маркетинговых инструментов и не имеют смысла для всех практических целей.

  1. Определение точности неоднозначно, и каждое альтернативное определение даст вам совершенно разные числа точности.
  2. Говорить о точности без тестового набора и его условий бессмысленно. Распознавание темнокожих людей в условиях низкой освещенности с помощью камер с низким разрешением, размытости движения и ограниченной вычислительной мощности - это совершенно другая проблема, чем распознавание людей, которые позируют для своих фотографий профиля в социальных сетях с помощью высококачественных камер и идеальных условий визуализации. Сведение этих двух показателей в одну кучу делает представленные метрики бессмысленными для обоих сценариев.

В. Наконец, постоянно приходится слышать о различиях в демографической точности (например, худшее соответствие женщин, цветных людей и т. Д.). Типичный ответ состоит в том, что это проблема с данными обучения и ее легко решить. Так ли это? Существуют ли демографические характеристики, при которых неравенство, вероятно, сохранится (например, мы слышали, что детей гораздо труднее распознать и эти возрастные различия, вероятно, сохранятся)?

О: Теоретически можно решить проблему смещения с помощью сбалансированного набора обучающих данных. Проблема в том, что теоретический идеал не может быть реализован в реальном мире без очень значительных усилий по сбору данных и тщательной разработки процедур обучения.

Самая масштабная работа в этом направлении, о которой я знаю, - это База данных IBM Diversity in Faces (DiF) t. Они собраны с Flickr и имеют очень очевидные и серьезные недостатки, например большинство изображений сделаны фотографами-любителями и имеют высокое качество - это не распространяется на такие сценарии, как камеры видеонаблюдения или нательные камеры.

В Как на самом деле будет работать изделие FR? Для тех из нас, кто менее технологичен, возникает один вопрос: какую форму может принять технология FR. (Например, мы предполагаем, что алгоритм FR может быть разработан и интегрирован в веб-сайт, чтобы позволить клиентам анализировать загруженные ими фотографии / видео, это правильно?) Как правило, мы могли бы использовать некоторую помощь, чтобы понять, как он может работать, и в каких точках можно было бы интегрировать меры, принимаемые человеком в контуре.

Продукты FR могут принимать разные формы и формы в зависимости от того, какую проблему мы пытаемся решить для пользователей. Например, можно встроить функции в веб-сайт, на котором размещены изображения с лицами для выполнения таких запросов, как «найти все лица в этом видео» или «найти все лица в шляпах или очках в этом видео» и т. Д. базу данных снимков вместе с их личностями, можно также создать функцию для выполнения таких запросов, как «найти все видеокадры в наборе видео, где появляется отдельный X (чей снимок есть в нашей базе данных)».

Примечание. Это гипотетические возможности, и, разумеется, я игнорирую соображения точности и конфиденциальности ради примеров.

В Соответственно, что означает (технически / функционально) для нательной камеры наличие возможности FR? Может быть, живые трансляции с ношения на теле передаются обратно в облако, где затем выполняется FR-анализ? Это не обязательно должно быть в реальном времени, верно?

A Это правильно. Возможны оба сценария. В последнем случае (работа на устройстве) существуют серьезные соображения / ограничения, касающиеся вычислительной мощности и времени автономной работы устройства.

Q [Дополнительный вопрос] Как системы FR можно сравнить с распознаванием лиц? Другими словами, могут ли компьютеры распознавать лица лучше, чем люди?

Краткий ответ: В большинстве случаев они сильно отстают, но во многих вводящих в заблуждение заголовках (самые старые, которые мы смогли найти, были от 2006 г.) утверждалось, что FR превзошел человеческий уровень по производительности.

Наиболее распространенный набор данных для сравнения производительности человека с FR - это Набор данных« Помеченные лица в дикой природе (LFW)». Наивная интерпретация заключается в том, что эффективность человека в этом наборе данных составляет 97,35%, в то время как лучший FR (Google FaceNet по состоянию на февраль 2019 г.) составляет 99,63%.

Однако с этим тестом есть несколько серьезных проблем:

  1. Лица слишком просты по сравнению с реальностью. Лица извлекаются из Интернета с помощью старого, но быстрого алгоритма обнаружения лиц (технология уровня 2001 года). В результате лица всегда полностью находятся в поле зрения камеры, показывают вид спереди, имеют очень хорошие характеристики освещения / искажения / размытия. Сами по себе эти условия делают набор данных недействительным.
  2. В реальных приложениях количество несовпадений значительно выше, чем совпадений. В LFW они считаются равными. Опять же, это полностью меняет уравнения и делает недействительным эталон как надежное представление реальности.
  3. Люди в этих исследованиях получают опыт видеоигры, когда они смотрят на два лица на мониторе компьютера и выбирают, принадлежат они одному человеку или нет. Это может быть похоже на то, что люди делают вручную для сопоставления лиц в очень узком наборе приложений. Однако это сильно отличается от того, как люди распознают лица в реальном мире, где они могут изучать лицо (трехмерный объект) под разными углами с течением времени. Следовательно, эти сравнения не представляют собой справедливого сравнения между производительностью человека и машины.

Нам не удалось найти исследование, в котором человеческие способности измерялись бы в физическом мире. Было бы интересно провести всестороннее исследование способности человека распознавать лица, включая его разбивку на разные расы, возрасты и пол.

Главный вывод: один из вариантов использования, когда системы FR, несомненно, превосходят возможности человека, - это сопоставление фронтальных изображений взаимодействующих субъектов с одним из N изображений в базе данных фотографий. Хорошо обученный алгоритм может достичь Отчете ФРВТ за 2018 год. Для сравнения: люди не могут реально искать в базе данных размером больше нескольких десятков. Даже с меньшими наборами данных одно исследование показало, что люди работают очень плохо (частота ошибок от 50% до 60%) для небольшого целевого размера N = 8. Похоже, что текущее состояние технологии достаточно точно для этого варианта использования. Конечно, все еще существует конфиденциальность и другие вопросы, которые необходимо учитывать.

[1] Моджи Сольджи - вице-президент, руководитель отдела искусственного интеллекта и машинного обучения в Axon Enterprise Inc. [email protected]. @msolgi в ​​твиттере и LinkedIn.

[2] Барри Фридман - профессор права Джейкоба Д. Фуксберга, аффилированный профессор политики, директор полицейского проекта Школы права Нью-Йоркского университета. Www.policingproject.org. [email protected]. @ barryfriedman1 @policingproject в твиттере.

[1] и [2] Отказ от ответственности: эта статья опубликована в нашем личном качестве и независимо от наших аффилированных лиц и работодателей.