Последние дополнения во вселенной ИИ — это фундаментальные модели. Базовые модели — это алгоритмы машинного обучения, которые обучаются в массовом масштабе. Они могут выполнять множество функций и задач, настраиваемых пользователем. С технологической точки зрения эти модели основаны на глубоких нейтральных сетях, обученных с помощью обучения с самоконтролем.

Чем они отличаются от существующих крупных моделей машинного обучения? Масштабируемость дает им возможность выполнять, предсказывать, прогнозировать и давать более качественные и быстрые результаты на основе существующих моделей. Текущие базовые модели имеют миллиарды параметров, по которым их можно обучать, и обрабатывают сотни гигабайт данных.

Модели могут работать со всеми форматами наборов данных, будь то документы, изображения, видео или любой другой формат. Как правило, ИИ требует контекстных данных в одном и том же формате, например, текста, видео, аудио и изображений, для выполнения выводов. Последние достижения в мультимодальном обучении позволили модели обучаться, используя дополнительную информацию или тенденции, полученные из форматов, отличных от нее самой. Например, модель CV, которая может вывести ответ на текстовый вопрос из изображения.

Рост глубокого обучения ИИ и обучения с самоконтролем характеризуется растущим появлением и гомогенизацией. В статье О возможностях и рисках моделей фундаментов это описано следующим образом:

«С появлением машинного обучения способ выполнения задачи становится очевидным (выводится автоматически) из примеров; при глубоком обучении появляются функции высокого уровня, используемые для прогнозирования; а с базовыми моделями появляются даже расширенные функции, такие как обучение в контексте. В то же время машинное обучение гомогенизирует алгоритмы обучения (например, логистическая регрессия), глубокое обучение гомогенизирует архитектуры моделей (например, сверточные нейронные сети), а базовые модели гомогенизируют саму модель (например, GPT-3)».

Экосистема базовых моделей

Экосистема базовой модели охватывает этапы от создания данных до фактического развертывания. Он состоит из последовательностей этапов, где люди занимают оба конца спектра.

  1. Создание данных. Создание данных в первую очередь ориентировано на человека: они создаются людьми в результате их действий, таких как электронные письма, фотографии, статьи. Это также может быть статистика вокруг себя, например, измерение людей (например, геномные данные) или измерение объектов вокруг них (например, лесной покров в географической области).
  2. Курирование данных. Затем данные объединяются в наборы данных. Несмотря на то, что предпринимаются усилия по открытию наборов данных, в отрасли по-прежнему сложно найти соответствующие качественные данные.
  3. Обучение.Обучение базовых моделей на этих наборах данных помогает продвигать исследования ИИ.
  4. Адаптация. Адаптация включает в себя создание новой модели на основе базовой модели для выполнения некоторых задач (например, обобщения документов, рекомендательных систем, предсказания и прогнозирования и т. д.). Для развертывания адаптация заключается в создании системы, которая потенциально требует множества различных модулей, пользовательских правил (например, ограничений на пространство вывода) или классификаторов (например, для классификации токсичности) и комбинации с другими дополнительными сигналами (например, ответом на вопрос). ответы, сгенерированные моделью, будут проверены на соответствие соответствующим документам).
  5. Развертывание. Открытие исходного кода модели при развертывании систем ИИ помогает проводить исследования и научное понимание. Следовательно, стандартной практикой крупномасштабных развертываний является выпуск постепенных выпусков, когда развертывание происходит для все большей части пользователей.

Что ждет модели фундамента в будущем?

В настоящее время исследователи выявляют множество открытых вопросов и потенциальных рисков, связанных с моделями фундамента. Некоторые критики упоминали, что эти базовые модели уже существуют сегодня как «большие языковые модели». Также стоит упомянуть, что большие языковые модели могут ввести в заблуждение платформу машинного обучения, вводя вводящие в заблуждение шаблоны. Тем не менее, возможности, связанные с этой концепцией, очень многообещающие. Эти мощные методы искусственного интеллекта развиваются полным ходом по мере коммерциализации алгоритмов машинного обучения.

Исследования и анализ базовых моделей начались в области НЛП и вскоре распространяются на другие области и типы контента: изображения, звук, видео, аналитические данные, неструктурированный текст и так далее.

В конечном счете, будущее базовых моделей заключается в быстрой адаптации и масштабируемом обучении, которые могут помочь принимать разумные решения для достижения успеха в области ИИ.