# 74: Распознавание лиц Apple, ориентированное на конфиденциальность, мультимодальный Perceiver IO DeepMind и морской лед…

Всем привет, добро пожаловать в Dynamicly Typed #74! Сегодняшний раздел, посвященный искусственному интеллекту, включает в себя некоторые обновления приложения ClipDrop и подробный пост в блоге Apple о распознавании лиц с сохранением конфиденциальности в приложении «Фотографии». Я также рассказал о новой общей архитектуре ввода-вывода Perceiver от DeepMind для исследований машинного обучения и о IceNet для климатического ИИ. И, наконец, для интересных вещей я нашел Omnimatte, который мы, вероятно, увидим интегрированным в большинство программ для редактирования видео через несколько лет. Приятного чтения!

(Эта проблема немного позже, чем обычно, потому что предсезонка только началась в гребле, и первые несколько тренировок были утомительными (но очень веселыми). В любом случае, я наконец-то понял, как загружать GIF-файлы в DT, поэтому я надеюсь, что эти наверстать опоздание.)

Произведенный искусственный интеллект 🔌

📱 Впервые я рассказал об инструменте Сирила Диана вырезать и вставить в мае 2020 года, когда это была крутая техническая демонстрация в Твиттере, а затем еще раз, когда он выпустил его как ClipDrop в октябре. Напоминаем, что ClipDrop позволяет вам сфотографировать объект, который затем сегментируется (вырезается) из фона, чтобы вы могли вставить (перетащить) его на холст на своем ноутбуке в AR. Диагне был занят с самого первого запуска: он сделал Y Combinator, собрал посевной раунд и вырастил команду. У ClipDrop сейчас 11 000 платных клиентов; он также запускает новое веб-приложение и API. (Зарегистрируйтесь для доступа к закрытой бета-версии здесь.) Это еще один отличный пример программного обеспечения для творчества с искусственным интеллектом — см. также Нейронные фильтры Photoshop, Фотомодели GAN Rosebud AI, все Приложения на основе Spleeter и курс RunwayML и Descript.
🕵️‍♀️ В блоге машинного обучения Apple появился подробный новый пост об их ориентированной на конфиденциальность реализации на устройстве распознавания лиц в приложении Фото. Некоторые интересные детали, в произвольном порядке: (1) люди идентифицируются не только по встраиваниям их лица, но также по их верхней части тела и метаданным с фотографии — две фотографии, сделанные с интервалом в несколько минут, с относительной вероятностью содержат одного и того же человека. ; (2) алгоритм итеративной кластеризации сначала группирует очень определенные совпадения, затем группирует эти группы и т. д., и, когда он больше не уверен, спрашивает пользователя, являются ли два кластера по-прежнему одним и тем же человеком; (3) постоянные переоценки предвзятости в обучающем наборе данных служат руководством к тому, какие пробелы заполнить в новых раундах сбора данных; (4) работая на новейшем Apple Neural Engine, генерация встраивания лица занимает всего 4 миллисекунды. Недавно я перешел с Google Фото на Apple Photos, и одна вещь в их распознавании людей определенно впечатляет: Google считает двух моих друзей-близнецов одним и тем же человеком, и Apple может разлучить их.

Более продуктивный ИИ: истории (22), ссылки (73)

Исследования в области машинного обучения 🎛

🔎 Perceiver IO — это новая универсальная архитектура DeepMind для обработки широкого спектра входных модальностей, таких как изображения, видео, трехмерные облака точек и звуки, в выходные векторы. Во-первых, Perceiver (без IO) масштабировал концепцию внимания Transformers к гораздо большим размерам входных данных, без введения предположений, специфичных для предметной области, сначала кодируя входные данные в небольшой скрытый массив фиксированного размера и следя за этим. Теперь Perceiver IO (arXiv, GitHub) расширяет это, также обращая внимание на сторону декодирования, так что один вход может производить несколько выходов, и как входы, так и выходы могут быть сочетанием модальностей. Это открывает двери для всех видов приложений, таких как понимание смысла текста по каждому из его символов, отслеживание движения всех точек на изображении, обработка звука, изображений и меток, составляющих видео, и даже играть в игры, используя единую архитектуру, которая проще, чем альтернативы. С выпуском OpenAI DALL·E и CLIP и запуском Stanford HAI Исследовательского центра Foundation Models в этом году эти крупные мультимодальные сети стали центром внимания ведущих лабораторий искусственного интеллекта.

Дополнительные исследования машинного обучения: истории (14), ссылки (82)

Искусственный интеллект для климатического кризиса 🌍

🧊 IceNet — это новая вероятностная система прогнозирования морского льда с глубоким обучением, обученная на моделировании климата и данных наблюдений для прогнозирования карт среднемесячной концентрации морского льда на следующие 6 месяцев. Это модель U-Net, которая использует 50 климатических переменных в качестве входных данных и выводит дискретные распределения вероятностей для трех различных классов концентрации морского льда в каждой ячейке сетки. Самая крутая (ха-ха) часть: IceNet работает более чем в 2000 раз быстрее на ноутбуке, чем SEAS5 на суперкомпьютере, занимая менее десяти секунд на одном графическом процессоре. Практические варианты использования — планирование маршрутов судоходства и предотвращение конфликтов между кораблями и мигрирующими моржами и китами. Довольно круто.

Больше климатического ИИ: истории (6), ссылки (33)

Классные вещи ✨

💨 Omnimatte — это новая модель генерации матов/масок от Эрики Лу, которая разработала ее в сотрудничестве с исследователями Google AI во время двух стажировок. В отличие от других современных сетей сегментации, Omnimatte создает маски как для объектов, так и для их эффектов, таких как тени или облака пыли в видео, что позволяет редакторам легко добавлять слои контента между фоном и объектом на переднем плане реалистичным способом. . Форрестер Коул и Тали Декель подробно объясняют, как работает модель (с большим количеством картинок!) в сообщении в блоге Google AI.

Еще интересные вещи: истории (5), ссылки (26)

Спасибо за прочтение! Если вам понравился этот выпуск журнала Dynamically Typed, рассмотрите вариант подписки, чтобы получать новые выпуски прямо на ваш почтовый ящик каждое второе воскресенье.

Первоначально опубликовано 12 сентября 2021 г. на странице https://dynamicallytyped.com.

# 74: Распознавание лиц Apple, ориентированное на конфиденциальность, мультимодальный Perceiver IO DeepMind и морской лед…

Произведенный искусственный интеллект 🔌

Исследования в области машинного обучения 🎛

Искусственный интеллект для климатического кризиса 🌍

Классные вещи ✨

Вопросы по теме