По мере того, как мир захватывает ChatGPT, обещающий революционизировать все, от образования, бизнеса, здравоохранения, торговли и многого другого, возникает естественный вопрос: как такое предприятие, как банк, поставщик медицинских услуг, телекоммуникационная компания или розничный торговец, решает внедрить такие системы в свой бизнес? В частности, следует ли использовать сторонние большие языковые модели (LLM), такие как ChatGPT, или создавать внутреннюю инфраструктуру? Насколько дороги ChatGPT по сравнению с LLM с открытым исходным кодом? Каковы компромиссы с точки зрения производительности, текущих затрат, рисков и т. д.?

TLDR. Перед внедрением языковых моделей, таких как ChatGPT, регулируемые отрасли должны тщательно рассмотреть несколько рисков, связанных с конфиденциальностью данных, предвзятостью модели ИИ, наблюдаемостью и доверием клиентов, особенно при обработке личных данных клиентов. Эти проблемы имеют решающее значение для обеспечения соответствия требованиям и защиты конфиденциальной информации.

В тех случаях, когда имеет смысл использовать ChatGPT, например, для обобщения предложений продуктов компании для запроса чат-бота, существует порог использования, когда ChatGPT экономичны. ChatGPT дешевле, чем использование LLM с открытым исходным кодом, развернутых на AWS, когда количество запросов составляет ~ 1000 в день. Однако по мере того, как объем запросов увеличивается до миллионов в день, экономика меняется, и развертывание моделей с открытым исходным кодом на AWS становится более доступным вариантом, особенно с учетом текущей структуры ценообразования как для ChatGPT, так и для AWS.

LLM с представлением Transformers в 2017 году, за которым последовали прорывные модели, такие как BERT, GPT и BART, меняют способы нашего общения и взаимодействия с технологиями, и их влияние ощущается в разных отраслях и странах.



Несколько лет назад исследователи из OpenAI и Google задокументировали в множестве статей, демонстрирующих, что LLM с более чем 10 миллиардами параметров становятся все более изощренными, способными понимать сложные языковые структуры и генерировать ответы, подобные человеческим.

Действительно, языковые модели, такие как LLM, быстро завоевывают популярность и становятся повсеместными в различных областях. Они готовы произвести революцию во многих аспектах нашей жизни, предоставив виртуальным помощникам, чат-ботам, инструментам для создания контента и службам перевода, а также другим приложениям. Способность этих моделей эффективно обрабатывать и анализировать огромные объемы данных в сочетании с их способностью извлекать из них уроки меняет то, как мы работаем, учимся и общаемся.

Теперь, когда многие предприятия рассматривают возможность интеграции своих процессов, функций и рабочих процессов с LLM, предприятия ищут, как к ним подойти.

Соображение 1. Стратегический выбор между ChatGPT и LLM с открытым исходным кодом

Существует несколько соображений, связанных с использованием ChatGPT или сторонних LLM в регулируемых отраслях, таких как банковское дело, здравоохранение или телекоммуникации, особенно при использовании данных клиентов для их обучения. ChatGPT был обучен в основном на общедоступных данных из Интернета, что делает его подверженным следующим рискам:

Риски, связанные с конфиденциальностью. Многие LLM прошли обучение на общедоступных данных, конфиденциальность которых не обеспечивается. Обратите внимание на недавний иск Getty Images против Stable Diffusion, в котором утверждается, что 12 миллионов изображений из репозитория Getty без разрешения… или компенсации. Ожидайте, что такие судебные процессы будут распространяться, потенциально подвергая опасности корпоративных клиентов поставщика LLM.

Риски предвзятости. Пройдя обучение на общедоступных данных, многие сторонние LLM не могут гарантировать, что модели не предвзяты, подвергая своих корпоративных клиентов риску штрафов и взысканий со стороны регулирующих органов.

Проблемы с данными клиентов. Клиенты могут беспокоиться о том, что сторонний LLM может получить доступ к их конфиденциальной финансовой информации, например, даже если ChatGPT используется в частном экземпляре их банка. Точно так же большинство людей будут серьезно обеспокоены тем, что LLM имеют доступ к их личным медицинским данным.

Недоверие:из-за сочетания таких факторов, как глубокие подделки. Например, в 2021 году компания в ОАЭ потеряла 35 миллионов долларов из-за дипфейкинга голоса директора компании, и количество таких случаев будет расти в геометрической прогрессии. Как банки защищают доверие клиентов, если происходят такие события? Что, если помимо таких новостей клиенты банка задаются вопросом, для чего используются их личные данные, особенно для обучения сторонних LLM?

Риски наблюдаемости.Поскольку такие большие модели трудно «наблюдать», корреляция между входными и выходными данными неизвестна, а атрибуция причины и следствия практически невозможна.

Необратимость вреда из-за «модели черного ящика»: Поскольку модели являются черными ящиками и не поддаются наблюдению, вред неизвестен (за исключением очевидных случаев) и, следовательно, необратим.

Ответственность: Кто несет ответственность за вред, причиненный моделями LLM: создатели модели (скажем, LlaMa by Meta) или, скажем, банк, который ее настроил? Та же аналогия используется в случае автомобильной аварии, вызванной отлетевшим спойлером. Является ли это OEM-производителем, который создал спойлер, который отлетел и ударил другую машину, дилером, который мог установить его ненадлежащим образом, или пользователем, который, возможно, модифицировал его?

Однако есть области, где использование ChatGPT относительно безопасно. Например, использование ChatGPT для обобщения предложений продуктов компании, чтобы лучше отвечать на вопросы поддержки клиентов, не включает данные клиентов и, вероятно, не нарушает каких-либо соображений конфиденциальности.

Если предприятие решит изучить возможность использования ChatGPT, встает вопрос о стоимости.

Соображение 2. Сравнение стоимости ChatGPT и LLM с открытым исходным кодом

Вариант 1. Стоимость API ChatGPT

API ChatGPT сегодня стоит 0,002 доллара за 1 тыс. токенов, а токен составляет около 3/4 слова. Количество токенов в одном запросе — это сумма подсказки + сгенерированного вывода, то есть преобразованных токенов словами.

Предположим, предприятие обрабатывает входящие запросы клиентов через интерактивный чат-бот с использованием ChatGPT. Вопрос и ответ — это примерно страница: 500 слов или 666 токенов. Тогда ответ на 5000 запросов клиентов в день будет стоить ((0,002/1000)x666*5000)= ~6,5 долларов в день или 200 долларов в месяц.

Но что произойдет, если каждый клиент воспользуется 4–5 подсказками, чтобы получить правильный ответ, который он ищет? В конце концов, они не обязательно являются хорошо обученными инженерами, привыкшими писать тонко настроенные запросы, чтобы получить ответ. Предположим, у нас поступает 200 тысяч таких запросов в день, что является нормой для контакт-центра крупного бренда.

В этом сценарии стоимость взлетает до ~ 0,5 миллиона долларов в год, что делает ChatGPT значительными расходами для корпоративного бизнеса! Неудивительно, что венчурные капиталисты (ВК), привыкшие находить возможности для заработка, вливают миллиарды долларов в идеи ChatGPT for X.



Вариант 2. Модели больших языков с открытым исходным кодом

2a. Затраты на LLM с открытым исходным кодом: факторы и зависимость от модели

Для предприятий, которые ищут LLM с открытым исходным кодом, вариантов предостаточно. Мой бывший работодатель, Meta (Facebook), впервые разработал LLaMA с различными размерами моделей от 7 до 65 миллиардов параметров. По словам разработчиков LLaMa, модель с 13 миллиардами параметров превзошла значительно более крупную модель GPT-3 со 175 миллиардами параметров в большинстве тестов NLP. Позже команды из Стэнфордского университета доработали версию 7B LLaMA на демонстрационных примерах 52K, следующих инструкциям, и обнаружили, что их модель Alpaca превосходит GPT-3.

Хотя модели с открытым исходным кодом можно использовать бесплатно, инфраструктура для их размещения и развертывания — нет. Более ранние ресурсы, такие как BERT, были менее ресурсоемкими и могли быть точно настроены с использованием младших графических процессоров. Однако более поздние LLM, такие как LLaMa, требуют больше ресурсов.

Наиболее распространенные модели LLM, такие как GPT-3 или BERT, основаны на архитектурах на основе трансформаторов. Хотя количество операций, необходимых для вывода и обучения для таких преобразователей, зависит от модели, эмпирическое правило для преобразователей (т. е. веса нейронных сетей) заключается в том, что прямой проход (т. е. вывод) для модели с p параметрами для ввода и выходной последовательностью длины n токенов каждая занимает примерно 2 * n * p операций с плавающей запятой (FLOPs) на токен, поскольку дополнительный обратный проход требует еще четырех операций. Таким образом, пользователь может аппроксимировать общую стоимость обучения количеством токенов в обучающих данных, умноженных на параметры аппроксимирующих коэффициентов (2 или 6).

Требования к памяти для трансформаторов также зависят от модели. Для логического вывода параметры p-модели должны помещаться в память. Для обратного распространения во время обучения необходимо хранить в памяти дополнительные промежуточные значения для каждого параметра между прямым и обратным проходом. Предполагая 32-битные числа с плавающей запятой и для обучения модели со 175 миллиардами параметров, модели потребуется более 32 * 175X10⁹ байтов или более 6 ТБ данных в памяти. Это превосходит любой существующий сегодня GPU и, следовательно, требует разделения модели на несколько карт памяти.

Используя формулы, показанные выше, вот требования к обучению и выводу для BERT и GPT-3. Для освежения знаний для обучения требуется 6 * p FLOPS на токен, а для вывода требуется 2 * n * p FLOPS, где p — параметры, а n — токены для обучающих данных.



Как вычислительные сложности превращаются в стоимость? Хотя можно пойти по пути дальнейшего преобразования требований инфраструктуры к конкретным графическим процессорам, оптимизации алгоритма (например, с использованием 16 чисел с плавающей запятой против 32 чисел с плавающей запятой) и количества проходов обучения, необходимых для достижения стабильности модели для достижения диапазона чисел, наш литературный обзор показывает, что это может варьироваться в 10 раз: от 0,5 до 5 миллионов долларов для GPT-3. Это большая сумма денег, требующая значительных инвестиций, которые могут позволить себе только крупные компании или хорошо финансируемые стартапы.

2b: LLM с открытым исходным кодом: архитектура для развертывания моделей с открытым исходным кодом

Помимо создания собственного центра обработки данных для размещения, обучения и развертывания LLM, более практичным решением для предприятий будет использование облачных провайдеров, таких как AWS, Google, Azure, или более мелких поставщиков, таких как Lambda Labs, для размещения и развертывания таких моделей. Многие предприятия, такие как банки, поставщики медицинских услуг и телекоммуникационные компании, уже имеют тесные отношения с поставщиками облачных услуг Большой тройки, что делает этот вариант привлекательным для них. Учитывая наше знакомство с AWS, мы будем использовать инфраструктуру AWS в качестве примера.

Давайте углубимся в затраты AWS на размещение моделей с открытым исходным кодом и обслуживание в качестве API — обычно в четыре этапа.

  • Клиентское устройство, например, браузер, вызывающий запрос клиента, который затем передается через Amazon’s API Gateway.
  • Шлюз API, в свою очередь, запускает Lambda, которая анализирует функцию и отправляет ее в конечную точку AWS Sagemaker.
  • Затем модель вызывается в конечной точке с помощью AWS Sagemaker.

Стоимость Sagemaker зависит от типа вычислительного экземпляра для размещения модели, поскольку LLM используют довольно большие вычислительные экземпляры.

Например, в этой статье, написанной Heiko Hotz, подробно описывается, как развернуть Flan UL2 — модель с 20 миллиардами параметров на AWS:



В статье используется экземпляр ml.g5.4xlarge для развертывания Flan-UL2. Хотя в приведенной выше цене Sagemaker не указана стоимость этого конкретного экземпляра, похоже, что он будет стоить ~ 5–6 долларов в час или 150 долларов в день! Кроме того, стоимость Lambda и шлюзы API составляют около 10 и 1 доллара за миллион запросов.

Таким образом, в конечном итоге стоимость размещения LLM с открытым исходным кодом, такого как Flan-UL2, на AWS составляет 150 долларов США за 1000 запросов в день и 160 долларов США за 1 миллион запросов в день, или около 500 000 долларов США.

Вариант 3. Стоимость LLM с открытым исходным кодом для небольших языковых моделей

Для еще более простых задач, например, создания механизма обобщения корпоративной кадровой политики, по которому можно организовать чат сотрудников, или для обнаружения спама достаточно небольших языковых моделей, таких как BERT, состоящих из сотен миллионов параметров.

Для обучения BERT можно использовать более дешевые экземпляры, такие как ml.m5.xlarge, которые стоят 0,23 доллара в час и ~ 5 долларов в день. Эти модели также достаточно эффективны для «узких» приложений по сравнению с ChatGPT и GPT4, которые могут понимать сложные нюансы человеческого языка.

Соображение 3. Использование квантованных моделей, таких как QLoRA

В недавней статье было объявлено о новом методе QLoRA, который обеспечивает практически революционную возможность обучения и точной настройки LLM на графических процессорах потребителей.По сравнению с точной настройкой 16-разрядных моделей, QLora использует меньше памяти и не жертвует производительностью.

Используя этот метод, можно точно настроить модель 33B на одном графическом процессоре 24GB. Для тонкой настройки модели 64B используется один GBU на 46 ГБ. QLoRA достигает этого, используя 4-битное квантование для сжатия предварительно обученной языковой модели. Затем параметры языковой модели замораживаются, и затем к модели добавляется относительно небольшое количество обучаемых параметров в форме низкоранговых адаптеров.

Во время тонкой настройки QLoRA передает обратно градиенты через замороженную 4-битную квантованную предварительно обученную языковую модель в адаптеры низкого ранга (LoRA).Согласно исследованию LoRA, которое проводится очень глубоко, единственными параметрами, которые изменяются во время обучения, являются слои LoRA.

QLoRA использует 4-битный тип данных хранения NormalFloat для весов базовой модели и 16-битный тип данных BrainFloat для выполнения вычислений. Во время прямого и обратного проходов QLoRA деквантует веса из типа данных хранилища в тип вычислительных данных. Однако он вычисляет весовые градиенты только для параметров LoRA, что является 16-битным BrainFloat. Веса распаковываются только тогда, когда они необходимы, что намного меньше, чем 100% времени цикла, что значительно снижает использование памяти во время обучения и логического вывода.

Настройка QLoRA, значительно сокращая использование памяти и требуя всего 24 часа тонкой настройки на одном графическом процессоре, достигает уровня производительности, приближающегося к 99,3% от уровня производительности ChapGPT.Кроме того, Guanaco, который использует тонкую настройку QLoRA на модели LLaMA, приближается к CHATGPT на тесте Vicuña.

Стоимость обучения и тонкой настройки сейчас приближается к 10 000 долларов или даже к 1000 долларов на QLora.

Сводка

Выбор между использованием таких моделей, как ChatGPT и GPT-4, разработанных такими компаниями, как OpenAI, и LLM с открытым исходным кодом зависит от нескольких факторов и соображений.

Такие модели, как ChatGPT и последующие версии OpenAI, часто предлагают более релевантные ответы по сравнению с LLM с открытым исходным кодом. Они извлекают выгоду из значительных усилий по исследованиям и разработкам, включая передовые методы и обширное обучение работе с обширными наборами данных. Эти модели предназначены для широкого применения и широкого спектра вариантов использования.

Однако LLM с открытым исходным кодом быстро догоняют их с точки зрения производительности и актуальности. Преимущество их заключается в том, что их можно настраивать и точно настраивать для конкретных источников данных. Компании могут использовать модели с открытым исходным кодом для обучения и тонкой настройки их на данных, специфичных для предметной области, что потенциально может повысить производительность в специализированных контекстах. Этот процесс тонкой настройки позволяет организациям адаптировать модели к своим конкретным потребностям и оптимизировать их для своих уникальных требований.

Кроме того, есть веские причины для выбора моделей с открытым исходным кодом вместо закрытых API, предоставляемых компаниями. Использование моделей с открытым исходным кодом обеспечивает больший контроль и прозрачность, поскольку организации имеют доступ к базовому коду и могут изменять его по мере необходимости. Этот уровень настройки может быть полезен для компаний с особыми требованиями к конфиденциальности, безопасности или соответствию требованиям.

Если бы эта статья была написана шесть месяцев назад, стандартные предложения OpenAI и тому подобное были бы очевидным выбором для предприятий. Однако за последние шесть недель значительные улучшения в квантовых моделях, например, открыли возможности для предприятий, особенно для тех, у которых достаточно сильный технический персонал, готовый быстро экспериментировать и учиться.

И модели — это только часть истории. Успех освоения ИИ зависит от различных факторов, таких как качество и разнообразие обучающих данных, процесс тонкой настройки, а также конкретный вариант использования или рассматриваемая область. Примером этого является BloombergGPT, который использует узкоспециализированные данные для предоставления высококачественных моделей.

В конечном итоге выбор между использованием закрытых моделей, таких как ChatGPT, или LLM с открытым исходным кодом зависит от конкретных потребностей, ресурсов и приоритетов организации. Оценка таких факторов, как производительность, параметры настройки, конфиденциальность данных и требования соответствия, поможет определить наиболее подходящий подход к использованию LLM в данном контексте.

Благодарности

Я был вдохновлен на написание этой статьи после прочтения действительно хорошего поста о LLM от Скандагупты Вивека. По мере того, как я углублялся в изучение, я натыкался на новые статьи, особенно статью Андреессена Горовица, а затем и на статьи о QLoRa. Некоторые из этих статей были включены в статью, хотя я не мог сделать это для каждой статьи. Этой статье также помогли беседы со многими моими коллегами. Наконец, что не менее важно, мой редактор, Чандраджита Чакраборти, сыграл решающую роль в придании этой статье окончательного вида.

Предыдущая история: К какому обществу ИИ мы движемся: к «Звездному пути, к Безумному Максу или к Элизиуму

Следующая статья: Откуда появилось название Bluetooth

Подпишитесь на DDIntel Здесь.

DDIntel содержит наиболее заметные фрагменты нашего основного сайта и нашей популярной публикации DDI Medium. Проверьте нас для более проницательной работы от нашего сообщества.

Зарегистрируйтесь на AItoolverse (альфа), чтобы получить 50 DDIN

Присоединяйтесь к нашей сети здесь: https://datadriveninvestor.com/collaborate

Подпишитесь на нас в LinkedIn, Twitter, YouTube и Facebook.