12 июля 2022 года мир искусственного интеллекта и науки о данных (в частности, НЛП) получил интересные новости в области больших языковых моделей (LLM). BigScience, открытое сотрудничество Hugging Face, GENCI и IDRIS и один из самых масштабных исследовательских семинаров в области НЛП, представила полную прозрачность и многоязычную широкоязычную модель с открытым исходным кодом BLOOM, урезанную форму BigScience Large Open-science Открытый доступ Многоязычная языковая модель. Давайте поговорим немного подробнее, используя следующие указатели.

Содержание

  • Что такое БЛУМ?
  • Кто может использовать BLOOM?
  • Технические характеристики

Что такое БЛУМ?

Bloom — одна из тех авторегрессионных больших языковых моделей, способных генерировать текст из подсказки на большом количестве текстовых данных. Эта модель не ограничивается одним языком; он может создавать такой текст на 46 языках и 13 языках программирования. Кроме того, эту модель также можно расширить для выполнения таких NLP или текстовых задач, для которых она была специально обучена, просто превратив процесс в задачу генерации текста.

Это первый полностью прозрачный многоязычный LLM, который использовал 176 миллиардов параметров и суперкомпьютер Jean Zay для обучения. Для создания этой модели потребовалось участие 1000 исследователей из более чем 70 стран и более 250 учреждений в течение 117 дней обучения.

Кто может использовать BLOOM?

Любой человек или организация, желающие попробовать и исследовать эту модель, могут скачать, запустить и изучить здесь. Прежде чем использовать его, мы должны согласиться с этими условиями и положениями.

Поскольку он встроен в платформу Hugging Face, его реализация такая же, как и у других трансформеров Hugging Face. Это означает, что его можно импортировать с трансформаторами и запускать с ускорителями.

Эту модель можно использовать в некоторых реальных случаях использования, требующих генерации текста, таких как написание рецептов, извлечение информации из статей или составление новых предложений с использованием серии текстов. Кроме того, это отличный пример для многих начинающих разработчиков и исследователей в области науки о данных, откуда они могут начать свое путешествие по изучению программного обеспечения, такого как PyTorch, apex, DeepSpeed ​​и т. д., в более глубоком направлении.

Техническая спецификация

BLOOM — это модифицированная версия Megatron-LM GPT2, включающая только архитектуру декодера. Говоря о параметрах и пространстве слоев, он содержит 176 миллиардов параметров, 70 слоев и 112 головок внимания с 14336-мерными скрытыми слоями. Целевая функция, разрешенная моделью, представляет собой перекрестную энтропию со средним уменьшением.

Как обсуждалось выше, эта модель была обучена на публичном суперкомпьютере Jean Zay, предоставленном французским правительством. Вот некоторые из технических характеристик этого компьютера:

  • 384 графических процессора A100 80 ГБ (48 узлов)
  • Процессор: АМД
  • Память процессора: 512 ГБ на узел
  • Память графического процессора: 640 ГБ на узел
  • Межузловое соединение: архитектура Omni-Path (OPA)

Для обучения этой модели потребовалось 1,6 ТБ текста (предварительно обработанного), а на приведенной ниже круговой диаграмме представлено распределение текста в соответствии с языком в обучающих данных.

Обучение модели началось 11 марта, и предполагается, что дата окончания обучения — 5 июля 2022 года. Количество эпох, используемых в обучении, равно одной, а ориентировочная стоимость обучения эквивалентна 2–5 миллионам долларов США в год. облачные вычисления.

Доступны следующие версии BLOOM:

  • цветение-350м
  • цветение-760м
  • цветение-1b3
  • Блум-2b5
  • цветение-6b3
  • цветение (параметры 175B)

Заключительные слова

Мы увидели, что нужно для создания этой модели и как она может помочь сообществу Data Science. Глядя на различные вещи, мы можем сказать, что он может стать революционным в области НЛП, поскольку команда разработчиков рассматривает его как только начало, а не просто готовую модель. Опробовать модель BLOOM можно здесь.

О ДСВ

Data Science Wizards (DSW) — это стартап в области искусственного интеллекта и науки о данных, который в первую очередь предлагает платформы, решения и услуги для использования данных в качестве стратегии с помощью решений для ИИ и анализа данных, а также консультационных услуг, чтобы помочь предприятиям принимать решения, основанные на данных. .

Флагманская платформа DSW UnifyAI — это комплексная платформа с поддержкой ИИ, позволяющая корпоративным клиентам создавать, развертывать, управлять и публиковать свои модели ИИ. UnifyAI помогает вам создать бизнес-вариант использования, используя возможности ИИ и улучшая результаты аналитики.

Свяжитесь с нами по адресу [email protected] и посетите нас на www.datasciencewizards.ai