Подведение итогов лучшего ИИ из урагана 2022 года

В воздухе витает жужжащее чувство беспокойства и напряжения. Никто не осмеливается пошевелить мышцей. Прошло более двух часов, но результат до сих пор неясен. Это будет решено в пространстве 12 ярдов. Неся вес своей нации на своих ушибленных плечах, Гонсало Монтьель подходит к пенальти, надеясь написать историю для Аргентины и в процессе исправить свою ошибку на 117-й минуте затаившей дыхание игры, которая привела к этому моменту. Футбольные боги дали ему второй шанс искупить свою вину. Он спокойно забивает мячи справа от соперника Уго Льориса, который ошибается и мучительно наблюдает, как мяч прижимается к углу сетки с удовлетворительным ударом. Более светлый из двух синих цветов вспыхивает празднованием. На заднем плане 24-летний Килиан Мбаппе с горем и недоверием качает головой. Его хет-трика в этот день оказалось недостаточно для Франции. Его одноклубник и легенда Лионель Месси недоверчиво качает головой от радости. Наконец-то он пополнил свою коллекцию медалей. Его наследие обеспечено.

Чемпионат мира по футболу 2022 года стал зрелищем, которое захватило воображение миллионов людей по всему миру, от случайных фанатов до набожных аналитиков. Счет 3–3 в дополнительное время и только третья серия пенальти в истории финалов чемпионатов мира определила победителя в эпической битве. Вот это игра.

Нет, вы не читаете спортивную статью. Сообщество машинного обучения было свидетелем такого волнения и безостановочного действия в течение 12 месяцев, а не только в течение 120 минут. Исследования в области машинного обучения значительно продвинулись в изучении фолдинга белков, решили математический вопрос 53-летней давности и создали невероятные изображения, разговоры и музыку с хладнокровием Эми Мартинеса, героического голкипера Аргентины в серии буллитов. Не было недостатка в действиях.

Если чемпионат мира 2022 года принадлежит таланту поколения Месси, то эквивалент 2022 года в области машинного обучения принадлежит генеративному ИИ.

Imagen Dall-E возвращается к жизни

Трудно найти хорошую отправную точку для размышлений об этом водовороте года, но рискну предположить, что большинство людей начали бы с моделей, генерирующих изображения. Итак, давайте начнем с этого.

До недавнего времени генеративно-состязательные сети (GAN) были королями горы, когда дело доходило до генерации изображений. Исследователям понадобилась идея из совершенно не связанной с ними области, неравновесной статистической физики, чтобы сбить эти сети с первого места. Результатом стал новый класс моделей, названных диффузионными моделями. Несмотря на захватывающий прорыв, они оставались в тени GAN в течение многих лет.

Но в апреле 2022 года OpenAI представила DaLL-E 2, использующую скрытую силу распространения, и ящик Пандоры был открыт. Миллионы пользователей протестировали модель в режиме бета-тестирования, и вскоре Интернет заполонили невероятные изображения, почти неотличимые от «настоящих» изображений. Будь то авокадо на Луне или воссоздание Моны Лизы, больше не было ничего невозможного.

Чтобы не отставать, Google выпустила не одну, а две модели: Imagen и Parti. Обе модели дали отличные результаты, но имели фундаментальные различия в лежащих в их основе архитектурах. Imagen использовал диффузионный подход, в то время как Parti была авторегрессионной моделью.

Хотя это исследование предоставило захватывающие творческие возможности и появление таких продуктов, как LensaAI и AvatarAI, оно не обошлось без разногласий. Используя Midjourney (решение для пользователей, позволяющее создавать изображения из текста), мужчина из Колорадо выиграл местную государственную ярмарку, что вызвало бурные протесты художественного сообщества. Традиционные художники были возмущены, когда узнали, что их работы использовались для обучения этих моделей без их разрешения. Что еще хуже, так это то, что эти сгенерированные произведения искусства заполонили веб-сайты, где эти художники продавали свои работы, и они никоим образом не получали за это компенсацию. Приложение Lensa AI создавало уничижительные изображения, когда женщины пробовали приложение.

В 2023 году исследователи будут стремиться к дальнейшему развитию технологий преобразования текста в видео и преобразования текста в 3D. За практическими последствиями этих моделей будет интересно следить, особенно когда речь идет о метавселенной, дипфейках и авторских правах. Креативщики могут бояться, что их рабочие места могут быть украдены. Тем не менее, я чувствую, что это раскроет скрытую креативность и воображение многих, у кого наконец-то есть инструменты для творчества из простого самовыражения. На самом деле, я чувствую, что опытные создатели могут получить от этого больше всего. Концепт-арт будет создавать намного проще, а творческий блок больше не будет проблемой.

Перед исследователями предстоит решить еще много интересных задач — как сделать генерацию быстрее, как развернуть эти модели на периферийных устройствах (ваших телефонах), как улучшить качество генерации и как сделать подсказки ближе к разговорному английскому.

Наконец, NeRF (Neural Radiance Fields) добились больших успехов в ряде областей. NeRF могут синтезировать новые виды сцены из ограниченного числа примеров видов. Скажем, я показываю вам несколько фотографий сцены, а затем прячу их. Если я попрошу вас закрыть глаза и представить, как эта сцена будет выглядеть под другим углом, вы, вероятно, сможете сделать это правильно? Это то, что делают NeRF. Раньше NeRF были ограничены в том, что они могли «вообразить». Mip-NERF 360 от Google нашел способ генерировать неограниченные виды сцены во всех направлениях, что было неслыханно. Просто посмотрите видео ниже, чтобы понять, что я имею в виду:

Еще одним ограничением NeRF является огромное количество времени, которое требуется для создания этих новых представлений. Plenoxels значительно сократили это время (традиционные NeRF были медленнее) — с дней до минут.

Мои замечательные сотрудники (и ваш покорный слуга) использовали NeRF для создания новых изображений нашего Солнца на основе спутниковых измерений.

Позже в том же году исследователи смогли создать пролеты с использованием NeRF, которые привели к действительно удивительным движущимся пейзажам.

Можете ли вы представить себе карты Google, использующие эту технологию? Как легко было бы найти семейный магазин на случайном углу улицы, если бы можно было «пролететь» маршрут на телефоне. Эта возможность может быть ближе, чем вы думаете.

Ладно, ладно, вы спрашиваете, почему я ни слова не упомянул о ChatGPT. Перейдем к языковым моделям.

Разговорный ИИ — резиновый утенок вперевалку

Многие программисты, которых я знаю, используют метод резиновой уточки. Когда вы сталкиваетесь с ошибкой во время кодирования (а вы столкнетесь с ней, потому что такова жизнь), вы просто говорите вслух, делясь своим мыслительным процессом с резиновым утёнком перед вами. Волшебным образом вы найдете ошибку и решение.

В 2022 году на смену резиновой уточке пришли две умные уточки — Github Copilot и ChatGPT. Copilot — это система автозаполнения кода, обученная на тоннах кода с открытым исходным кодом. Github открыл доступ к нему в этом году для всех пользователей. ChatGPT значительно поднял планку, учась на отзывах и становясь гораздо более разговорчивым, чем предыдущие модели (если вам интересно, как это работает, я писал об этом буквально на прошлой неделе здесь).

Были и другие важные примечательности, о которых я бы не упомянул. Альфакод от DeepMind, запущенный в начале этого года, смог решить сложные задачи кодирования. В конце концов, он обучался на коде, представленном на соревнованиях по программированию на дюжине языков программирования. Фактически, DeepMind обнаружил, что входит в число 54% ​​лучших участников соревнований по программированию!

Если вы похожи на меня, то знаете, как сложно решить задачи собеседования в Leetcode в условиях жестких временных ограничений. А теперь представьте, что вы решаете проблемы, которые кажутся пустяком, и завершаете работу в пределах верхней половины экспертов по кодированию. Это довольно изящное достижение, если вы спросите меня. Хотя эти модели в ближайшее время не заменят программистов, они являются прекрасными инструментами, помогающими нам легче писать и отлаживать код.

Мета выпустила Атлас, а позже и Галактику. Атлас был моделью ответов на вопросы, которая в основном извлекала информацию из базы данных документов. Галактика, с другой стороны, прожила только 3 дня в сети, прежде чем ее сняли. Это была языковая модель, обученная научным и техническим предметам. Но он был склонен к генерированию фальшивой информации и цитированию несуществующих источников.

Поиск Google не будет заменен в ближайшее время, ребята.

Уменьшение склонности этих моделей генерировать дезинформацию и галлюцинации станет ключевой задачей для исследователей в следующем году.

LOTR встречает большие модели

В дополнение к удивительному прогрессу, достигнутому выше, исследователи также пытались масштабировать эти модели для выполнения более чем одной функции — фактически сотни задач.

Проще говоря, представьте, если бы у вас была одна модель, чтобы управлять ими всеми. Вам придется обучить такую ​​модель один раз, а затем настроить ее по мере необходимости для различных задач. Это было бы очень полезно не только с точки зрения универсальности, но и с точки зрения сокращения выбросов углерода. Эти большие модели могут составить счета за электроэнергию, которые затмевают годовые счета нескольких стран.

В этом контексте в этом году на ум приходят две примечательные модели. Во-первых, Google выпустил PaLM, который мог показать современную производительность в нескольких задачах понимания и генерации языка. В чем-то он может превзойти человека. Другим был Гато от DeepMind. Это может выучить более 600 различных задач. Будь то игры atari, создание подписей к изображениям и многое другое.

Это все еще зарождающаяся работа, но есть явные признаки того, что эти большие модели обладают огромным потенциалом для обобщения и превращения в действительно многоцелевые решения.

Мне не терпится увидеть, куда пойдет эта нить исследований в 2023 году. Подумайте о хорошем Таносе со всеми камнями бесконечности. Если бы у вас была такая сила, чего бы вы добились щелчком пальцев?

В этом году было еще много интересных прорывов, но это те, которые привлекли мое внимание. Какое исследование заставило вас задуматься?

Рекомендации

  1. Фотореалистичные модели преобразования текста в изображение с глубоким пониманием языка: https://arxiv.org/abs/2205.11487