После того, как EleutherAI выпустила свою новую языковую модель GPT-J-6B, стало ясно, что она заполнит столь необходимый пробел в доступных языковых моделях. Хотя некоторые недооценивают эту модель из-за ее, казалось бы, незначительного количества параметров по сравнению с моделями параметров 175B+, доступными в OpenAI и AI21, она доказала свои преимущества по сравнению со своими более крупными предшественниками.

Некоторые из этих преимуществ очевидны, например, тот факт, что это модель с открытым исходным кодом, и, следовательно, у вас есть полный контроль над моделью и ее развертыванием на выделенных репликах. Другие не очевидны, пока вы не сможете полностью поэкспериментировать с GPT-J. Несмотря на то, что есть игровые площадки, позволяющие людям почувствовать, что такое GPT-J, ни одна из них не предлагает того же опыта, который вы могли бы ожидать от GPT-3.

Итак, сегодня мы рады объявить о запуске нашей бесплатной общедоступной игровой площадки GPT-J со всеми стандартными параметрами, которые вы ожидаете от других альтернатив GPT, и списком доработанных моделей, которые скоро будут доступны. С учетом сказанного, эта статья предоставит руководство с ключевыми понятиями для нашей игровой площадки GPT-J.‍

Руководство

Выберите модель

Сначала выберите модель, которую хотите использовать. В настоящее время мы предлагаем стандартную модель GPT-J, но мы будем добавлять различные модели с тонкой настройкой, чтобы люди могли испытать возможности тонкой настройки.‍

Напишите свое приглашение

Затем напишите запрос, чтобы получить ответ от модели, которую вы хотите. Лучше всего рассказать модели, что бы вы хотели получить и показать на примере.

‍‍Настройте параметры

После того, как ваше приглашение будет выполнено, вы можете настроить параметры модели в зависимости от задачи, которую вы предоставляете модели. Более подробная информация о параметрах приведена далее в этом руководстве.

Создать ответ

Наконец, нажмите «Отправить», чтобы получить ответ от модели.

‍‍

Ключевые идеи

Подсказки

Подсказка — это то, как вы «программируете» модель для достижения желаемого отклика. GPT-J может делать все, от написания оригинальных историй до генерации кода. Из-за его широкого спектра возможностей вы должны явно показывать ему то, что хотите. Говорить и показывать — вот секрет хорошей подсказки.

GPT-J пытается угадать, что вы хотите от подсказки. Если вы напишете подсказку «Дайте мне список художественных книг», модель может не предположить автоматически, что вы запрашиваете список книг. Вместо этого вы можете попросить модель продолжить разговор, начинающийся со слов «Дайте мне список художественных книг» и продолжающий фразой «и я скажу вам мою любимую».

Есть три основных совета по созданию подсказок:

1. Проверьте свои настройки

Параметры температуры и top_p — это то, что вы обычно настраиваете в зависимости от задачи. Эти параметры определяют, насколько детерминирована модель при генерации ответа. Распространенной ошибкой является предположение, что эти параметры контролируют «творчество». Например, если вы ищете неочевидный ответ, вы можете установить их выше. Если вы спрашиваете об ответе, где есть только один правильный ответ, вам нужно установить их ниже. Подробнее о параметрах GPT-J позже.

2. Покажи и расскажи

Дайте понять, чего вы хотите, с помощью комбинации инструкций и примеров. Вернемся к нашему предыдущему примеру вместо:

«Дайте мне список художественных книг»

Do:

«Дайте мне список художественных книг. Вот примерный список: «Гарри Поттер», «Игра престолов», «Властелин колец».

3. Предоставляйте качественные данные

Если вы пытаетесь классифицировать текст или заставить модель следовать шаблону, убедитесь, что имеется достаточное количество примеров. Важно не только предоставить достаточное количество примеров, но и примеры должны быть проверены на наличие орфографических или грамматических ошибок. Хотя модель обычно способна замечать простые ошибки, она может считать их преднамеренными.‍

пробел

Пробел или то, что происходит, когда вы нажимаете пробел, может быть токеном или токенами в зависимости от контекста. Следите за тем, чтобы в конце подсказки никогда не было пробелов, иначе это может непреднамеренно повлиять на реакцию модели.‍

Токены

GPT-J понимает и обрабатывает текст, разбивая его на токены. Грубо говоря, 1 токен равен примерно 4 символам. Например, слово «телевидение» разбивается на лексемы «теле», «виз» и «ион», а короткое и распространенное слово, такое как «собака», представляет собой единую лексему. Токены важно понимать, потому что GPT-J, как и другие языковые модели, имеет максимальную длину контекста 2048 токенов или примерно 1500 слов. Длина контекста включает как текстовое приглашение, так и сгенерированный ответ.‍

Параметры

Параметры — это различные настройки, управляющие тем, как GPT-J отвечает. Знакомство со следующими параметрами позволит вам применять GPT-J к ряду различных задач.

Длина ответа

Длина ответа — это длина сгенерированного текста в токенах, которую вы хотели бы получить на основе вашего приглашения. Токен состоит примерно из 4 символов, включая буквы, цифры и специальные символы.

Обратите внимание, что максимальная длина ответа для GPT-J составляет 2048 токенов.

Температура

Температура контролирует случайность генерируемого текста. Значение 0 делает механизм детерминированным, что означает, что он всегда будет генерировать один и тот же вывод для заданного входного текста. Значение 1 заставляет двигатель брать на себя наибольший риск.

В качестве точки отсчета для завершения истории или генерации идеи обычно используются значения температуры от 0,7 до 0,9.

Топ-P

Top-P — это альтернативный способ контроля случайности генерируемого текста. Мы рекомендуем использовать только одно из значений Temperature и Top P, поэтому при использовании одного из них убедитесь, что для другого установлено значение 1.

Грубое эмпирическое правило заключается в том, что Top-P обеспечивает лучший контроль для приложений, в которых GPT-J должен генерировать текст с точностью и правильностью, в то время как Temperature лучше всего работает для тех приложений, в которых требуются оригинальные, творческие или даже забавные ответы.

Топ-К

Выборка Top-K означает сортировку по вероятности и обнуление вероятностей для чего-либо ниже k-го токена. Более низкое значение улучшает качество, удаляя хвост и уменьшая вероятность отклонения от темы.

Штраф за повтор

Штраф за повторение работает, снижая вероятность того, что слово будет выбрано снова, чем больше раз это слово уже было использовано. Другими словами, это работает, чтобы предотвратить повторяющееся использование слов.

Остановить последовательность

Последовательности остановки позволяют вам определить одну или несколько последовательностей, которые при генерации заставят GPT-J остановиться.

Это обеспечивает базовое понимание ключевых концепций, чтобы начать использовать нашу бесплатную игровую площадку GPT-J. Когда вы начнете экспериментировать и генерировать интересные или забавные ответы, которыми стоит поделиться, не стесняйтесь твитить их нам!

Если у вас есть вариант использования для тонкой настройки или вам нужен доступ к API, свяжитесь с нашей командой.

Первоначально опубликовано на https://www.helloforefront.com.