Как безопасно протестировать изменения подсказки LLM

Сегодня большие языковые модели являются величайшими создателями прозрений среди разработчиков. У каждого разработчика, который играл с LLM, есть гениальная идея о том, как они могут изменить целые отрасли. Их умы выходят из-под контроля, среди всех волнений, кофеина и решимости добиться перемен лежат идеи, о которых уже подумали тысячи людей, но которые не смогли воплотить в жизнь.

«С помощью LLM легко сделать что-то классное, но очень сложно сделать с их помощью что-то готовое к производству» – Чип Хьюен

Что мы подразумеваем под невозможностью запуска в производство?

Все согласны с тем, что в настоящее время интеграция LLM в приложение является довольно простым процессом. Выберите модель, создайте подсказки, а затем создайте на ее основе приложение. Люди склонны замалчивать тот факт, что большинство больших языковых моделей имеют свое собственное мышление. Они прошли обучение по миллиону различных тем и в любой момент могут стать непослушными.

Трудно гарантировать, что сгенерирует большая языковая модель. Было бы странно, если бы чат-бот, созданный для аптеки, начал отвечать на вопросы о лекарствах, говоря, что йога — блестящая альтернатива лекарствам от сердца.

Можно сказать, что при правильных методах быстрой разработки и тестирования модель не будет вызывать галлюцинаций. Однако на самом деле, даже если команда инженеров по подсказкам возится с подсказками и анализирует выходные данные модели, можно протестировать лишь горстку из миллиона возможных сценариев. Это означает, что подсказка, которая в конечном итоге оказывается эффективной для (небольшого числа) проверенных случаев, может демонстрировать значительную низкую производительность при развертывании в реальной производственной среде, особенно при столкновении с реальными пользовательскими запросами.

Процесс тестирования языковой модели необычайно сложен. На самом деле поиск подсказки, которая будет работать хорошо, сам по себе является запутанным и кропотливым процессом. У нас есть множество сценариев для проверки. Различные показатели точности могут давать разные выводы о поведении модели. Разработчики рассчитывают на немедленные результаты и мгновенное удовлетворение, чего нельзя добиться при тестировании LLM. . . до настоящего времени.

UpTrain — это набор инструментов с открытым исходным кодом, предназначенный для эффективного тестирования больших языковых моделей (LLM). Его цель — обеспечить надежную работу ваших приложений LLM путем оценки различных аспектов, таких как правильность, структурная целостность, предвзятость и галлюцинации в их ответах. С помощью UpTrain вы можете проводить систематические эксперименты, используя несколько подсказок, оценивая их по разнообразному набору тестов и определяя их производительность. Это позволяет вам выбрать лучшую подсказку, не полагаясь исключительно на ручные усилия.

Кроме того, UpTrain предлагает возможность проверки ответов вашей модели в производственной среде. Если какая-либо из проверок не пройдена, вы можете изменить ответы в режиме реального времени, обеспечив их соответствие. Кроме того, вы можете отслеживать производительность вашей модели, пока она находится в производстве.

Используя полный набор инструментов оценки LLM, предоставляемых UpTrain, включая стандартные метрики NLP, проверки классификации моделей, проверки на основе вложений и проверки с участием человека, вы можете уверенно вносить изменения в свои приложения LLM. Это устраняет риск развертывания неправильных или ошибочных подсказок в рабочей среде. Теперь давайте разберемся, как работает UpTrain.

Изображение выше — это скриншот панели управления UpTrain. Обратите внимание, что главное меню состоит из четырех разделов:

Раздел набора данных (для загрузки наборов данных)
Раздел "Эксперименты" (здесь указываются различные запросы к модели)
Раздел проверки (позволяет указать проверки UpTrain)
Раздел результатов (Здесь можно получить визуализации и выводы )

Каждый раздел предоставляет вам свой набор инструментов для создания визуализации данных.

Раздел набора данных:

В разделе «Набор данных» мы предоставляем данные для создания тестовых подсказок для больших языковых моделей. Этими данными может быть что угодно… документы, сценарии фильмов, вопросы, электронные письма, ссылки, номера и т. д. Все, что нужно сделать пользователю, — это загрузить файл JSON с необходимыми данными, и UpTrain поймет, как с ним работать.

Для демонстрации мы выбрали набор данных с документами и запросами к документам. Каждая строка содержит следующую информацию: вопрос,название документа, ссылка на документ и текст документа. Теперь мы хотим посмотреть, как различные модели отвечают на вопрос, цитируя текст из документа. После того, как мы ввели наш файл JSON, мы переходим к разделу экспериментов.

Раздел экспериментов:

Раздел «Эксперименты» UpTrain предоставляет интерфейс для определения нескольких моделей и подсказок для экспериментов. Гибкость выбора нескольких моделей, таких как GPT-4, Claude, ChatGPT и т. д., позволяет анализировать и понимать сильные и слабые стороны каждой модели по отношению к конкретному набору данных.

Кроме того, поддерживается возможность экспериментировать с несколькими подсказками. Чтобы упростить создание подсказки, можно определить шаблон подсказки с рядом параметров для переменных подсказки.

В нашем случае мы используем gpt-3.5-turbo и gpt-4. Далее мы создаем шаблон приглашения. Если мы укажем переменные, которых нет в предоставленных данных, панель инструментов UpTrain создаст текстовое поле для ввода необходимой информации. Как только все данные будут загружены, UpTrain извлечет выходные данные, созданные при выполнении всех подсказок. Мы переходим к разделу проверок после завершения.

Раздел чеков:

Что такое ПРОВЕРКА UpTrain?

Проверка UpTrain помогает нам указать, какой тип тестов мы хотим запустить, и какую визуализацию данных мы хотим получить.

Проверка Uptrain принимает 3 аргумента:

Имя : название чека.
Операторы : операторы, которые должны выполняться при выполнении проверки.
Графики: графики, которые должны быть сгенерированы при выполнении проверки.

В разделе «Проверки» мы можем выбрать все различные измерения ответов модели, которые мы хотим сравнить. UpTrain имеет встроенные проверки на галлюцинации, встроенное сходство, правильность грамматики, проверку вежливости, оценку румян и т. Д. Как только мы выбираем проверку, мы замечаем, что появляются дополнительные параметры для настройки наших визуализаций. После выбора всех необходимых опций ниже будет сформирован чек. Мы можем добавить любое количество проверок с желаемой визуализацией, такой как гистограмма, гистограммы, линейные диаграммы и т. д. для них.

На этом мы завершили все шаги по созданию наших визуализаций. Осталось только получить результаты.

Раздел результатов:

Раздел результатов позволяет нам получить созданные визуализации. UpTrain запустит модели для всех возможных ситуаций и предоставит результаты. Изображение ниже — это визуализация, которую мы получили от созданного нами оператора.

Теперь имейте в виду, что мы использовали только одного оператора. Что бы произошло, если бы мы создали несколько операторов? … Мы получаем больше визуализаций. Uptrain предоставляет раскрывающееся меню для просмотра всех созданных визуализаций.

В заключение, UpTrain предоставляет разработчикам эффективный и надежный способ внесения изменений в приложения LLM. Используя UpTrain, разработчики могут оптимизировать процесс тестирования, обеспечивая эффективность, скорость и чувство уверенности. В следующих статьях мы подробно рассмотрим функции, предлагаемые UpTrain. Следите за обновлениями.