Введение:

Мир искусственного интеллекта и машинного обучения быстро расширяется, и модели больших языков (LLM) становятся все более популярными благодаря их приемлемости и применимости ко всему множеству вариантов использования в Business Domain. Эти модели способны обрабатывать огромные объемы данных, изучать закономерности и делать прогнозы на основе данных. Однако при таком большом количестве доступных моделей больших языков выбор правильной модели для вашего проекта может оказаться сложной задачей. Эта статья призвана дать обзор того, как выбрать лучший для ваших конкретных потребностей. Независимо от того, являетесь ли вы разработчиком, исследователем или владельцем бизнеса, эта статья поможет вам сориентироваться в сложной среде больших языковых моделей и выбрать ту, которая подходит для вашего проекта.

Фон:

30 ноября 2022 года OpenAI запустила ChatGPT, современную модель большого языка, предназначенную для общения с людьми. ChatGPT — это мощный инструмент, использующий машинное обучение для понимания и создания ответов, подобных человеческим, на самые разные темы и вопросы.

После запуска ChatGPT в технических сообществах и сообществах искусственного интеллекта было много шума. Многие эксперты хвалили ChatGPT за его впечатляющие возможности, в том числе способность понимать и генерировать сложные предложения, вести естественные разговоры и учиться на опыте взаимодействия с пользователями. В то время как некоторые пользователи также выразили обеспокоенность по поводу возможной предвзятости или неэтичного поведения в ответах модели, другие критиковали модель за ее случайные ошибки или недоразумения.

За недели и месяцы с момента запуска ChatGPT использовали миллионы людей по всему миру. Это также, по-видимому, обострило гонку вооружений ИИ: Microsoft объявила об интеграции ChaGPT в продукты Microsoft, а Google нажала «красный код», чтобы защитить свой поисковый и рекламный бизнес.

В целом запуск ChatGPT стал важной вехой в развитии технологии искусственного интеллекта. По мере того, как все больше организаций продолжают выпускать аналогичные продукты, крупноязыковая модель может революционизировать то, как мы общаемся и взаимодействуем с машинами, открывая новые возможности для образования, развлечений и общения с людьми.

Ключевое соображение при выборе LLM:

Как бизнес, вот некоторые из ключевых соображений при изучении правильной большой языковой модели для вашего проекта:

Случай использования:

  • Технический: рассмотрите конкретные требования задачи, которую вы пытаетесь выполнить. Различные большие языковые модели могут лучше подходить для разных задач, таких как языковой перевод, обобщение текста, разговорный ИИ или анализ настроений.
  • Бизнес: Большие языковые модели имеют широкий спектр потенциальных бизнес-приложений. Вот несколько примеров: поддержка клиентов, виртуальный помощник, создание контента, поиск документов, маркетинг и т. д.

Стоимость:

  • Стоимость модели. Для некоторых больших языковых моделей может потребоваться лицензионная плата или значительные вычислительные ресурсы, что может повлиять на стоимость использования модели. При выборе учитывайте стоимость использования модели.
  • Эксплуатационные затраты. Рассмотрите ресурсы для размещения модели, такие как ресурсы ЦП и ГП, память и хранилище. Убедитесь, что выбранную вами модель можно запустить на доступных ресурсах. Для моделей text-davinci-003 Fine-Tuned Models OpenAI.com будет стоить вам 0,12 доллара США за вывод (до токена 1k), а Azure будет стоить 3 доллара США за час хостинга плюс 0,02 доллара США за вывод. Вывод Sagemaker в реальном времени для хоста, скажем, базовой модели BERT, будет стоить 5,53 доллара в час (ml.m5.24xlarge).

Безопасность:

  • Учитывайте чувствительность воздействия данных на модель. Возможно, вы не захотите использовать модели, размещенные для нескольких арендаторов, где вы рискуете раскрыть свои данные.
  • Конфиденциальность: убедитесь, что модель не собирает и не передает конфиденциальную информацию без надлежащего согласия или разрешения.
  • Предвзятость и справедливость: Убедитесь, что модель свободна от предвзятости и обеспечивает справедливость в своих прогнозах и рекомендациях. Это может включать использование разнообразных и репрезентативных данных, проверку модели на систематическую ошибку и внедрение методов уменьшения систематической ошибки. Это очень хорошо объясняет Аванта Араччи, главный операционный директор A-Frame Brands: Bias похож на гравитацию, которую вы не можете видеть, она просто существует. Если вы хотите иметь возможность летать и бросать вызов гравитации, вам нужно построить самолет, специально предназначенный для этого.

Настройка:

  • Возможность тонкой настройки модели (Transfer Learning) для конкретных бизнес-потребностей. Большинство больших языковых моделей обучаются на огромном количестве данных в предметной области. Поэтому, если вы, например, занимаетесь наукой о жизни, вам может потребоваться тонкая настройка модели для конкретных данных вашего домена, таких как «Лекарства», «Реакции» и т. д., чтобы модель могла понимать конкретные контексты домена.
  • Способность направлять модели в новых сценариях (обучение за несколько выстрелов)

Доступность данных:

  • Рассмотрите количество и качество данных, необходимых для обучения/точной настройки модели. Некоторым моделям может потребоваться большое количество высококачественных обучающих данных, в то время как другие могут хорошо работать с меньшими наборами данных.

Производительность:

  • Задержка вывода. Размер модели может повлиять на ее производительность и вычислительные требования. Более крупные модели, как правило, работают лучше, но также требуют больше вычислительных ресурсов, чтобы избежать более высокой задержки.
  • Точность модели. Посмотрите на показатели производительности различных моделей, которые вы рассматриваете, такие как точность, воспроизводимость и полнота. Рассмотрите компромисс между производительностью и требуемыми вычислительными ресурсами.

Соответствие:

  • Убедитесь, что модель соответствует применимым нормам безопасности и конфиденциальности, таким как GDPR, HIPAA или PCI-DSS. Это может включать внедрение определенных мер безопасности и конфиденциальности, проведение регулярных проверок и оценок, а также ведение соответствующей документации и записей.

Некоторые модели LLM, доступные на рынке:

Вывод:

В заключение, выбор правильной большой языковой модели имеет решающее значение для успеха любого проекта ИИ. Как мы уже видели, при выборе наиболее подходящей модели для ваших нужд необходимо учитывать несколько факторов. От конкретного варианта использования до стоимости, безопасности, настройки, доступности данных, производительности и соответствия требованиям — каждый аспект играет важную роль в процессе принятия решений. Принимая во внимание эти факторы, вы можете принять обоснованное решение о том, какую модель большого языка использовать, гарантируя, что ваш проект достигнет желаемых результатов, оставаясь при этом безопасным и соответствующим требованиям. В конечном счете, ключом к выбору лучшей модели большого языка для вашего проекта является проведение тщательного исследования и анализа различных доступных вариантов, всегда помня о целях и требованиях вашего проекта.

Ссылки и источники:

  1. https://www.bloomberg.com/news/videos/2023-03-03/new-voices-doubling-down-on-dei-in-a-downturn-video?t=%7Bseek_to_second_number%7D — Bloomberg Кэролайн Хайд беседует с Альдой Леу Деннис, генеральным партнером Initialized Capital, и Авантой Араччи, главным операционным директором A-Frame Brands, 3 марта 2023 г.
  2. https://arxiv.org/abs/2112.11446 — Rae at el, 21 декабря 2021 г.
  3. https://www.deepmind.com/blog/language-modelling-at-scale-gopher-ethical-considerations-and-retrieval — Джек Рэй в el, 8 декабря 2021 г.
  4. https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/ — Корби Россет, 13 февраля 2020 г.
  5. https://arxiv.org/pdf/1910.10683v3.pdf — Колин Раффель, el, 23 октября 2019 г.