Новый алгоритм реконструирует лица из голосовых записей - и вызывает серьезные вопросы о конфиденциальности.

Распознавание лиц жуткое. Это один из первых методов компьютерного зрения, получивших признание (во многом потому, что он работал еще до того, как глубокое обучение захватило мир), а также один из самых сложных.

Когда распознавание лиц впервые стало коммерчески доступным, оно использовалось для очень конкретных целей, таких как распознавание игроков в казино или вход в высокопроизводительные компьютерные системы. Поскольку революция в области глубокого обучения сделала распознавание лиц быстрее и дешевле, компании начали встраивать его во все виды продуктов. Технология перешла от «наблюдения за определенными ключевыми людьми в определенных конкретных ситуациях» к «отслеживанию всех повсюду».

Как и ожидалось, возникла обратная реакция. В некоторых юрисдикциях, например в Сан-Франциско, городские агентства полностью запретили использование технологии распознавания лиц. А широкомасштабное законодательство, такое как Европейский GDPR, сделало практически невозможным коммерческое применение технологии, классифицируя лица как защищенную личную информацию.

Однако даже в тех местах, где распознавание лиц является законным, защитников конфиденциальности утешает тот факт, что обмануть его относительно легко. Чтобы отслеживать ваше лицо, компаниям или правительствам в первую очередь необходимо знать, как вы выглядите. Если ваше лицо никогда не попадает в базу данных, вас практически невозможно найти.

С новым алгоритмом искусственного интеллекта под названием Speech2Face все это может скоро измениться. Speech2Face берет аудиоклип говорящего человека (всего 4-6 секунд) и создает достаточно точное изображение его лица. Это умное использование искусственного интеллекта, которое имеет широкие последствия для конфиденциальности, обслуживания клиентов, правоохранительных органов и многого другого.

Воображая лицо

Speech2Face - это не единая система искусственного интеллекта. Вместо этого он сочетает в себе несколько методов машинного обучения для выполнения своей разрушающей конфиденциальность вуду.

Сначала Speech2Face принимает аудиоклип говорящего человека. Опять же, от 4 до 6 секунд будет достаточно. Затем алгоритм преобразует это в спектрограмму, которая является визуальным представлением аудиосигнала. Это стандартный метод, существующий на протяжении десятилетий - спектрограммы используются во всех аспектах аудиоанализа, от акустических испытаний оборудования до строительства концертного зала.

Speech2Face затем использует сверточную нейронную сеть (CNN) на спектрограмме. Этот шаг сам по себе великолепен. Кодирование звука в правильный машиночитаемый формат было бы огромной проблемой. Команда Speech2Face элегантно обходит этот вопрос, сначала создавая «изображение речи человека (спектрограмму), а затем тренируя свою сеть на картинке, а не на самой речи».

Это как если бы вы почувствовали запах банана, а затем попросили бы вас описать его мне. Вы можете сказать: «Он фруктовый, с цветочным алкогольным подтоном». Вы можете получить техническую информацию и сказать мне: «Пахнет изоамилацетатом, амилацетатом и немного уксусной кислоты». Или вы можете просто нарисовать мне банан.

Визуальные эффекты - это мощно - я бы, наверное, понял, о чем вы говорите, гораздо быстрее по вашей картинке, чем по всем сложным словам и химическим описаниям вашего сенсорного опыта.

Speech2Face делает компьютерный эквивалент рисования банана. CNN уже широко приняты, широко доступны и очень компетентны в обработке изображений. Превращая речь в картинку, исследователи раскрывают всю мощь CNN, не беспокоясь о том, чтобы научиться подавать в них аудиосигналы. Это умный прием, и я вижу, что он применяется ко многим другим задачам машинного обучения с невизуальными данными.

Затем CNN обрабатывает спектрограмму и возвращает лицо, записанное в стандартном машиночитаемом формате. Для этого команда обучила CNN более чем 100 000 пар лица / голоса, извлеченным из YouTube.

Интересно, что для обучения сети команда использовала методику самостоятельного обучения. Это означает, что им не нужно было вручную добавлять теги к видео, лицам, голосам и т. Д. Вместо этого CNN просто просмотрел множество пар голос / лицо и узнал, какие голосовые особенности имеют тенденцию коррелировать с какими чертами лица. Опять же, это передовой материал, который значительно снижает человеческий фактор, необходимый для обучения системы.

В качестве последнего шага Speech2Face берет выходные данные CNN и передает их в стандартный декодер лиц. Эта система принимает числовое представление лица (опять же, обычно используется в распознавании лиц) и использует его для создания реального изображения лица.

Конечным результатом является система, которая может принимать звук и возвращать достаточно точное изображение лица говорящего.

Лицо или твое лицо?

Обратите внимание, что я говорю «достаточно точно». Важно отметить, что если бы система услышала вашу речь, она не смогла бы воспроизвести ваше точное лицо. Скорее, это создаст лицо того же пола, этнического происхождения, возраста, структуры костей и т. Д.

Система немного похожа на полицейского художника-зарисовщика, который расспрашивает кого-то о подозреваемом. Они спросят: «Был ли подозреваемый мужчина или женщина? Какой у них был цвет лица? Как выглядели их глаза? » и т. д. и создайте составной набросок, дающий общее представление о том, как выглядит подозреваемый. Термин «композит» является здесь ключевым. Конечный продукт - это не фотореалистичный набросок преступника, а, скорее, относительно точное изображение того, как они выглядят, на основе комбинации - или композиции - нескольких функций.

Точно так же Speech2Face не может создавать определенные лица. По моему голосу он не узнает, что у меня на подбородке шрам или что у меня светлые волосы. Но он будет знать, что я белый мужчина определенного возраста, с определенной структурой костей и что я говорю по-английски. Во многих случаях этого достаточно, чтобы создать лицо, очень похожее на мое.

Услышь меня, найди меня

Вот где защитники конфиденциальности начнут потеть. Потому что на следующем этапе команда Speech2Face задала вопрос: «Может ли лицо, созданное с помощью алгоритма, помочь найти настоящего человека?».

Во-первых, они создали лица из речи людей. Затем они загрузили эти лица в программу распознавания лиц. Затем они попросили программу выбрать человека из ряда, выбрав его лицо из множества других похожих лиц - так же, как кто-то может попытаться выбрать преступника из составного рисунка полицейского художника-зарисовщика.

Услышав голос конкретного человека, Speech2Face смог выбрать его из списка с гораздо большей частотой, чем случайный.

Опять же, это должно обеспокоить защитников конфиденциальности - это означает, что голос человека может быть использован для восстановления версии его лица с достаточной точностью, чтобы система распознавания лиц могла найти его, даже не видя его настоящего лица раньше.

Алгоритм далек от совершенства в этой области, но это, возможно, связано с его обучением - обучите его базе данных видеонаблюдения вместо видеороликов YouTube, и он, вероятно, может стать довольно точным при распознавании лиц людей в реальном мире. используя только свой голос.

Speech2Face и ваш дядя-расист

У Speech2Face есть и другие проблемы. Основная из них заключается в том, что результаты системы сильно предвзяты по признаку пола, расы и страны происхождения. Людей с высоким голосом обычно называют женщинами, а людей с низким голосом - мужчинами. Предполагается, что люди, говорящие на азиатских языках, являются азиатами - в одном примере, который привела исследовательская группа, китаец был идентифицирован как азиат, когда он говорил по-китайски, и белый, когда он говорил по-английски.

В некотором смысле система немного похожа на вашего дядю-расиста. Кажется, он всегда может определить расу или этническое происхождение человека по тому, как он звучит, - но часто это неверно.

Любой зритель Голоса может сказать вам, что люди обычно смотрят на то, как они звучат, за исключением тех случаев, когда они этого не делают. Если бы система услышала Джордан Смит говорит или поет, она почти наверняка не опознала бы его как молодого кавказца. И полагаться на такие факторы, как акценты, для прогнозирования национального происхождения человека опасно - многие люди, особенно иммигранты, могут иметь акцент, резко отличающийся от страны их происхождения или страны их нынешнего проживания.

Предположение о том, что существует стандартный «поиск» определенных групп людей - даже если эти группы существуют только в скрытых слоях сверточной нейронной сети - является рискованным.

Честно говоря, исследователи это признают и обсуждают. На своей странице Github они посвящают больше текста этическим проблемам, которые поднимает их система, чем самой системе. Отрадно, что они кажутся такими самосознательными, а также обнадеживает то, что этим занимается академически мыслящая группа, а не какой-то отрывочный коллектив хакеров или правительственное агентство (насколько нам известно). Тем не менее, этические последствия Speech2Face и конфиденциальность - это то, что общество не должно игнорировать.

Speech2Face в реальном мире

Пока Speech2Face - это просто лабораторный эксперимент. Но есть масса способов применить это в реальном мире.

Очевидный - в охране правопорядка. Оскорбления по телефону и домогательства по телефону - старая проблема, но когда-то она становится все более распространенной. А с телефонами с записывающими устройствами и услугами VOIP становится все сложнее отслеживать личность звонящего и ловить людей, которые делают угрожающие или оскорбляющие телефонные звонки. Полицейские управления призывают получателей звонков с угрозами записывать данные о звонившем - их пол, примерный возраст и т. Д.

Speech2Face мог бы сделать даже лучше. Из голосовой почты или фрагмента вызывающего беспокойства звонка он может создать составной набросок звонящего. Это может быть использовано для определения их местонахождения или подтверждения их личности, особенно если это было частью более широкой модели преследования, такой как преследование, как и многие другие призывы к преследованию.

В несколько более зловещем варианте разведка или специалист Sigint могут использовать Speech2Face для создания составных зарисовок террористов или вражеских боевиков на основе болтовни, полученной по радиосигналу или отслеживаемому мобильному телефону. Их можно было использовать для обнаружения подозреваемых с помощью распознавания лиц, даже если подозреваемый никогда раньше физически не видел.

В более частном случае Speech2Face может быть очень полезен для центров обработки вызовов. Согласно исследованию Harvard Business Review, сотрудники колл-центра повышают свою продуктивность, когда на самом деле встречаются с клиентами, с которыми разговаривают. В исследовании признается, что с удаленными центрами обработки вызовов это не всегда возможно. Альтернативный вариант - предоставить фотографии покупателя. Это работает и в других областях - например, радиологи улучшили свой диагноз на 46%, когда им предоставили фотографию своего пациента.

Представьте себе систему управления центром обработки вызовов, которая использует Speech2Face для автоматического создания изображения каждого нового звонящего на основе их голоса. Это может быть предоставлено операторам вместе с их ответами по сценариям и другими данными о клиентах. Фотография - даже искусственная - может привести к большему сочувствию и лучшему обслуживанию, и ее можно будет практически бесплатно реализовать.

И в несколько более легком, но все же важном направлении, Speech2Face можно было бы использовать для создания реалистичного мультяшного изображения или аватара человека, используя только его голос. Исследователи Speech2Face фактически исследуют это в конце своей статьи в альтернативной системе, которую они называют Speech2Cartoon. Это берет выходные данные CNN и генерирует мультфильм в стиле Bitmoji вместо реальной фотографии лица.

Это может быть забавным дополнением к вашему телефону - создание Bitmoji для вас из фрагмента голоса. Но это может иметь и практическое применение. У многих людей, которые звонят в конференц-сервис, такой как Zoom или GoToMeeting, не включена видеосвязь. Когда они говорят, они появляются как общий аватар.

Что, если вместо этого Zoom прослушал несколько секунд их речи, когда они впервые присоединились к разговору, и автоматически предложил им варианты аватаров на основе их предполагаемого внешнего вида? Это был бы быстрый и простой способ настроить платформу для новых пользователей и упростил бы другим пользователям различать, кто говорит, на основе их аватара.

Изучение системы

Помимо специфики приложений Speech2Face, системе есть чему поучиться.

Во-первых, метод работы исследовательской группы со звуковыми сигналами - преобразование их в изображение с последующей передачей их в CNN - может иметь далеко идущие последствия, помимо создания лиц. Тот же метод можно использовать в медицине или образовании.

Многие заболевания, в том числе сотрясения мозга и болезни сердца, приводят к незначительным изменениям голоса пациентов. Диагностическая система могла слушать речь пациента в течение минуты или более и кодировать эту речь в спектрограмму, как это сделали исследователи для Speech2Face. Однако вместо того, чтобы предсказывать лица, спектрограмма может быть затем загружена в CNN, обученную обнаруживать медицинские состояния.

Для обучения потребуется база данных образцов речи пациентов с этим заболеванием. Но если бы это можно было реализовать, это было бы очень выгодным способом применить технологию, лежащую в основе Speech2Face. Вы можете легко представить себе и другие приложения, такие как обнаружение речевых патологий у детей в образовательной среде или определение акцентов во время изучения языка.

Ранний успех Speech2Face также является напоминанием о том, сколько шаблонов существует в мире, которые мы не можем сразу увидеть. На глубоком уровне логично, что физиология человека должна влиять на то, как он звучит. Но все же замечательно видеть компьютер, который может слышать голос и работать в обратном направлении, воссоздавая физический облик говорящего. Хотя мы не всегда можем воспринимать их сознательно, системы глубокого обучения, такие как Speech2Face, делают эти шаблоны видимыми и предоставляют инструмент для их изучения и анализа.

Speech2Face также напоминает о важности установления социальных стандартов в отношении использования технологий искусственного интеллекта, таких как распознавание лиц. Многие защитники конфиденциальности полагают, что победа над распознаванием лиц - это в основном техническая задача: затемните свое лицо правильным образом, и вы станете невидимым.

Но на самом деле технология распознавания лиц постоянно развивается. Speech2Face демонстрирует, что даже если вы никогда не показываете свое лицо одному компьютеру, все равно есть способы определить вашу внешность и использовать ее для отслеживания вас. Это подчеркивает важность установления норм и правил использования распознавания лиц. Победить его с технической точки зрения - проиграть битву: чтобы обеспечить конфиденциальность, общество должно установить правила, определяющие, когда технологию можно и нельзя использовать.

Speech2Face - это не только страшные сценарии Большого Брата. Создавая аватары или буквально помещая лицо в голос, он может привнести немного сочувствия и связи во многие наши анонимные взаимодействия, такие как разговор со службой поддержки или присоединение к конференц-связи с удаленными коллегами.

Как и все технологии искусственного интеллекта, Speech2Face может быть как полезным, так и разрушительным. Нам - людям - решать, куда мы это возьмем.