Как использовать новейшую языковую модель OpenAI, чтобы писать тексты для оригинальных песен

Я писал о различных итерациях больших языковых моделей OpenAI в течение последних трех лет, включая использование GPT-3 [1] для сочинения музыки и ChatGPT [2], также известного как GPT-3.5, для писания стихов. Поэкспериментировав с последней языковой моделью, GPT-4 [3], я обнаружил, что она может писать тексты песен, которые рассказывают связные истории с помощью рифмующихся слов.

В этой статье, первой из трех, я расскажу об истории GPT-4 и сравню его способность писать тексты и музыку с GPT-3. Далее я покажу, как GPT-4 может читать тексты современных групп и сочинять песни в их стиле. Я закончу общим обсуждением использования ИИ для написания музыки и некоторыми дальнейшими экспериментами.

Во второй части серии я расскажу, как GPT-4 может записывать аккорды для песен, а в третьей части я буду использовать эту систему для создания новых мелодий для сопровождения текстов.

Представляем GPT-4

14 марта я получил электронное письмо от OpenAI, в котором сообщалось, что у меня есть доступ к их новой языковой модели GPT-4. Вот что они сказали о своей модели в своем техническом отчете.

Мы сообщаем о разработке GPT-4, крупномасштабной мультимодальной модели, которая может принимать изображения и текст на вход и создавать текст на выходе. Хотя GPT-4 менее способный, чем люди, во многих реальных сценариях, он демонстрирует производительность на уровне человека в различных профессиональных и академических тестах, включая сдачу смоделированного экзамена на адвоката с результатом около 10% лучших участников теста. GPT-4 — это модель на основе Transformer, предварительно обученная для прогнозирования следующего токена в документе. Процесс согласования после обучения приводит к улучшению показателей достоверности и приверженности желаемому поведению. OpenAI, технический отчет GPT-4 [3]

В отчете также обсуждаются шаги, предпринятые OpenAI для повышения безопасности и согласования их модели GPT-4, чтобы система «следовала человеческим ценностям и следовала человеческим намерениям». Они рассказали о том, как привлекли более 50 экспертов в предметной области для состязательного тестирования, как они построили конвейер безопасности с помощью моделей и как они улучшили показатели безопасности по сравнению с предыдущими моделями [3].

Новая модель платная. OpenAI взимает 20 долларов США в месяц за ChatGPT Plus, что позволяет получить доступ к новому чат-боту GPT-4. Когда я зарегистрировался и вошел в систему, я увидел три варианта моделей чата.

Вы можете видеть, как OpenAI поднял уровни «рассуждений» и «краткости» для GPT-4.

Обратите внимание, что по умолчанию OpenAI сохраняет входные данные пользователей и сгенерированные ответы для повышения производительности модели, как указано в их документе политики данных. Это означает, что они могут использовать данные для обучения своих моделей. Я решил отказаться от их сбора данных, используя форму здесь.

Сравнение моделей написания текстов

Поэкспериментировав с новой системой GPT-4, я обнаружил существенное улучшение качества ответов по сравнению с исходной моделью GPT-3, особенно с рифмованными словами.

Сочинение текстов с OG, GPT-3

Вот моя попытка сочинить песню с оригинальной моделью GPT-3. Я использую слово «куплет», которое означает две строки рифмованного текста.

RobG: Напишите слова для первого куплета рок-песни о собаках и кошках, которые заканчиваются рифмующимися словами для каждого двустишия.

GPT-3:
Собаки и кошки живут вместе
Смешиваются в полной гармонии
Бегают и играют
Пока не пора спать

Свернувшись калачиком
В пушистом комочке
Домашние животные, которых мы любим больше всего
Это те, кто делает наш дом домом

Хорошо, эти тексты рисуют милую маленькую историю. Однако ни одно из куплетов не рифмуется, а размер строк не очень хорошо совпадает.

Сочинение текстов с новой моделью

Вот как отреагировала на тот же запрос новая модель GPT-4.

RobG: Напишите слова для первого куплета рок-песни о собаках и кошках, которые заканчиваются рифмующимися словами для каждого двустишия.

GPT-4:
Собаки и кошки, они бродят по улицам
Пушистые друзья с бьющимися сердцами
Когти и лапы, они правят землей
Хвосты трясутся, они понимают

Бок о бок они гоняются за ветром
Связанные вместе, лучшие друзья
Они качаются в лунной ночи
Собаки и кошки, они вне поля зрения

Ах, намного лучше! По большей части рифмы хорошие. Слово «ветер» рифмуется со словом «друзья» с натяжкой. Но фразировка цельная, с одинаковым размером каждой строки.

Сочинение музыки в стиле вашей группы

Чтобы узнать, может ли GPT-4 писать музыку в определенном стиле, я связался с несколькими местными группами и спросил, могу ли я сочинить песню, используя их тексты в качестве референсов. Все они согласились.

Я начал с того, что GPT-4 сочинил тексты в стиле Rhode Iceland, альтернативной рок-группы из Лоуэлла, Массачусетс, Hi Fi Monk, хип-хоп/фанк/регги группы из Бостона, Массачусетс, и The Agents, ска-группа из Провиденса, Род-Айленд.

Анализ текстов

Чтобы GPT-4 мог анализировать песни трех групп, я написал код для получения транскрипции текстов из аудиофайлов с использованием двух проектов с открытым исходным кодом. Я использовал Whisper, модель искусственного интеллекта для преобразования речи в текст от OpenAI [4], для расшифровки текстов. Затем я прогнал расшифрованный текст через GPT-4, чтобы указать части песни, то есть куплет, припев и т. д. Вы можете запустить мой код в моем Google Colab, здесь.

Добро пожаловать в Род Исландия

Во-первых, я попросил GPT-4 проанализировать песню Rhode Iceland «Bloody Brain», передав текст. Обратите внимание, что новая модель может обрабатывать больше текста, чем предыдущие модели. GPT-3.5 мог обрабатывать только 4000 токенов, что эквивалентно 3125 словам. Но GPT-4 имеет две версии. Один обрабатывает 8 000 токенов, а другой обрабатывает 32 000 токенов, что эквивалентно колоссальным 25 000 слов. Вот моя подсказка.

RobG: проанализируйте слова песни Bloody Brain группы Rhode Iceland.

[Куплет 1]
Иду вверх по скрытому течению
К чертовому мозгу
Я ничего не хочу делать своим
Я хочу взять все
И пусть это горит
Я хочу взять все
И сделать это своим
Надеялся потерять свои хорошие времена
Но было слишком поздно

[Припев]
Иди дальше
Иди и уходи
Выкинь меня из головы
Вытащи меня из своего сердца
Выкинь меня из головы< br /> Убирайся из моего сердца

[Припев]
Иди вперед и вперед
Выкинь меня из своей головы
Иди вперед и назад
Вытащи меня из своего сердца
Иди дальше
Дальше

[Outro]
Выбросьте меня из головы
Выкиньте меня из моего сердца
Выкиньте меня из головы
Выкиньте меня из своего сердца

GPT-4:
"Bloody Brain" группы Rhode Iceland кажется интроспективной и эмоционально заряженной песней, затрагивающей темы отстраненности, контроля и борьбы за то, чтобы отпустить прошлые отношения.

Лирика в стихе 1 передает ощущение двойственности, когда говорящий желает как обладать, так и отказываться от контроля над определенными аспектами своей жизни. Повторяющийся припев подчеркивает необходимость двигаться дальше и отделиться от эмоциональных связей, вызывающих суматоху. Строки «Вытащите меня из головы» и «Вытащите меня из своего сердца» предлагают призыв как к говорящему, так и к субъекту освободиться от затянувшихся уз прошлых отношений, демонстрируя внутреннюю борьбу между желанием удержаться. и потребность в свободе. Финал песни повторяет припев, подчеркивая важность отпускания и движения вперед.

В целом, «Bloody Brain» изображает сложность эмоций и трудности отказа от контроля в отношениях, обеспечивая катарсическое освобождение как для артиста, так и для слушателя.

Этот анализ на месте. Если послушать Bloody Brain, он действительно кажется интроспективным и эмоционально заряженным. Тем не менее, он не заметил изменения перспективы в первом припеве, поэтому я спросил об этом.

RobG: Что вы думаете об этих текстах в первом припеве.
Выбросьте меня из головы
Вытащите меня из своего сердца
Выкиньте меня из головы
Уйди из моего сердца

ChatGPT:В первом припеве «Bloody Brain» лирика, кажется, передает ощущение эмоциональной запутанности и желание освободиться от нее. Строки «Вытащи меня из своей головы» и «Вытащи меня из своего сердца» говорят о том, что певица хочет отстраниться от чужих мыслей и чувств. Это может быть связано с тем, что их присутствие причиняет боль или усложняет жизнь другого человека.

С другой стороны, строки «Уйди из моей головы» и «Уйди из моего сердца» указывают на то, что певец также борется с мыслями и эмоциями, связанными с другим человеком. Они хотят освободиться от этой умственной и эмоциональной привязанности, чтобы обрести ясность, исцелиться и двигаться дальше по жизни.

Это кажется достаточно ясным. Изменение местоимений сильно изменило значение фраз. После того, как GPT-4 предоставил анализ текста, я попросил его создать песню в похожем стиле.

RobG: Напишите продолжение песни «Bloody Brain» в том же стиле.

GPT-4:
Название: «Затухающие эхо»

[Куплет 1]
Дрейфую сквозь невидимую тень
Преследую воспоминания, словно разбитый сон
Ищу утешение в пространстве между
Оставшись в оцепенении
Я хочу разорвать эти сковывающие цепи
Меня больше не нужно ограничивать
Я пытался вылечиться, но я все еще слеп
Заблудился в лабиринте

[Припев]
Двигайся дальше
Двигайся вперед и вперед
Освободи меня от своей хватки
Освободи меня от своей души
Освободись от моей хватки
Вырваться из моей души

[Припев] …

[Мост]
Пока эхо медленно замирает
Мы расправляем крылья, чтобы летать
Принимая неизвестное
Путешествие, которое предстоит нам в одиночестве

[Куплет 2]
Вступаем в новый день
Наш призрак начинает изнашиваться
Я хочу дышать таким прекрасным воздухом
И пусть он исцеляет
Я хочу нарисовать мир таким ярким
Где любовь и боль могут воссоединиться
Я нашел в себе силы победить в этой битве
Я учусь чувствовать

[Припев x 2] …

Стихи кажутся хорошими. Это немного мягко и имеет довольно много клише. Но мне нравятся визуальные эффекты, созданные как абстрактные виньетки. В GPT-4 прописаны все припевы, но я опустил повторение. Я заметил, что система в основном рифмует каждый куплет в новой песне. Рифмы хорошие, но стиль отличается от «Bloody Brain», в котором рифм очень мало. Однако мне понравилась сложная структура рифмовки AAAB-CCCB в стихах.

Скажи привет Hi Fi Monk

У Hi Fi Monk есть отличное видео, показывающее запись их мелодии Break с глубоким фанковым грувом.

Во-первых, я получил транскрипцию от Whisper. Вот сравнение исходного текста слева и автоматической транскрипции справа. Ошибки транскрипции выделены желтым цветом.

Транскрипция была приличной, учитывая, что под вокал играла музыка. Но в нем пропущено несколько ключевых фраз, таких как «кровь на коричневой коже».

Я попросил GPT-4 проанализировать песню. Я показываю здесь только отрывок из текста, но я отправил все 1000 слов в систему для анализа.

RobG: проанализируйте текст и стиль рифмовки песни «Break» группы Hi Fi Monk.

[Intro]
Святой Иоанн, бесстрашный, пришел разорвать все эти цепи.
Но ты должен сказать правду, сынок.
Ты должен сказать правда.

[Припев]
Это настоящее. Вот в чем дело.
Кровь коричневой кожи больше не может пролиться
Красному человеку больше не нужно красть земли
Как-нибудь найдите способ исцелиться
Разорвите цепи. Прорвитесь.
Вырвитесь на свободу, прежде чем они сломают вас.
Дерьмо реально. Оставайся честным. Крик свободы. Возьмите 2.

GPT-4: Лирика Hi Fi Monk «Break» вращается вокруг тем борьбы, угнетения и стойкости, с которыми сталкиваются маргинализированные сообщества, особенно афроамериканцы. Лирика затрагивает расизм, культурное присвоение, жестокость полиции, массовые заключения и стремление освободиться от социальных ограничений.

Стиль рифмовки в песне можно охарактеризовать как смесь конечной рифмы и внутренней рифмы, используя обе для создания ощущения ритма и плавности. Конечная рифма относится к рифмованию последних слогов строк, а внутренняя рифма относится к рифмам, возникающим внутри строки. В песне непоследовательная схема рифмовки, что делает ее сырой и органичной.

Это хороший анализ песни. В нем были затронуты ключевые темы лирики, посвященные влиянию социальной несправедливости. Это дало быстрый анализ стиля рифм в песне, попутно определив несколько терминов.

На этот раз, когда я предложил GPT-4 написать новую песню, я прямо сказал, чтобы она соответствовала стилю рифмовки.

RobG: Напишите после «Break» песню в том же стиле, включая рифму. Назовите части песни.

GPT-4
"Голоса поля боя"

[Куплет 1]
Трещины на асфальте, дети играют,
Под солнцем другой день,
Сердцебиение улицы, мечты освобождены,
В хаосе голоса набирают силу.

Бутылки разбитые, сказки несказанные,
Истории храбрых и смелых,
Угловые пророки, говорящие правду,
На фоне нашей юности.

[Припев]
Вставай, держись
Больше никаких цепей, мы их всех сломаем
Разрушь стены, разрушь их
Наш голос сотрясет это поле битвы
/> Поднимитесь, держитесь прямо
Больше никаких цепей, мы сломаем их всех
Разрушьте стены, разрушьте их
Наш голос сотрясет это поле битвы

[Куплет 2]
Осыпающиеся стены, запятнанные граффити,
Укоренившиеся послания надежды,
Пожарные лестницы, импровизированная сцена,
Для сражений, которые велись и разъединялись.

Вспышки сирен, плач матерей,
Слезы льются из усталых глаз,
Во мраке зажигается искра,
Мерцания надежды в беззвездных ночах.

[Припев] …

[Мост]
В тенях мы обретаем силу
Через трещины мы проложим путь
Рука об руку мы поднимемся выше
Вместе мы стоим, сила любви

[Куплет 3]
Уличные фонари мерцают, как сумерки,
Уступает место ночи, тишине,
Биты жизни, песня города,
В ритме мы принадлежим.

Общий смех, преломление хлеба,
Любовь и доброта, сердца сытые,
Единые, мы идем в бой,
С распростертыми объятиями свет обнимаем.

[Припев] …

[Outro]
В тишине звучит эхо,
Рассказы о надежде, которые мы несем,
Бок о бок мы сотворим нашу судьбу,
Вместе мы' буду освещать.

Это тоже кажется разумным. Тон песни похож на «Break» с напористым и воодушевляющим припевом. Мне нравятся словесные картины городской жизни в стихах и остроумный оборот в мостике: «В тени мы находим силу. Через трещины мы проложим путь».

Большинство куплетов имеют окончательную рифму, а также есть несколько внутренних рифм, например, с «тьмой» и «искрой» в строках: «Во тьме зажигается искра. Мерцания надежды в беззвездные ночи».

В целом, эти тексты кажутся продуманными и хорошо написанными, но они немного примитивны, без какой-либо утонченности, присущей лирике «Break».

Агенты: лицензия на трилл

Моим третьим и последним проектом было написание песни в стиле ска-группы The Agents. Я начал с того, что система проанализировала песню агента Grow.

RobG: проанализируйте слова и аккорды песни «Grow» ска-группы The Agents.

[Куплет 1]
Рука в D, в самый первый день, когда я встретил тебя, девочка
В самый первый раз, когда я взял тебя за руку
В самый первый раз, когда я посмотрел тебе в глаза
Я сказал тебе, что люблю тебя

[Куплет 2]
С того дня и до вечности
Тревожные времена, печаль, смех
Рука об руку, теперь мы идем вместе
Не могу представить что-нибудь получше

[Припев]
Расти, пусть твоя любовь растет, растет
Пусть твоя любовь приходит, поднимается, поднимается
Посади семя, и пусть твоя любовь растет
Выше и выше выше

GPT-4
«Grow» ска-группы The Agents — это песня о любви, которая отражает различные этапы и моменты романтических отношений. Тексты песен изображают первоначальные чувства любви, рост отношений и углубление связи между двумя людьми. Общее послание песни состоит в том, чтобы взращивать любовь и позволить ей раскрыть свой потенциал.

В текстах подчеркивается важность любви и товарищеских отношений, что видно из таких строк, как «В самый первый день, когда я встретил тебя, девочка», «Рука в руке, теперь мы идем вместе» и «Сейчас не могу представить ничего лучше». Повторение фразы «Расти, пусть твоя любовь растет, растет» подчеркивает центральную тему песни о росте и развитии в любви.

Система произвела отличный и лаконичный анализ песни. Он взял центральную тему песни о развитии отношений и выделил несколько ключевых строк в тексте, чтобы подчеркнуть это.

В отличие от первых двух экспериментов, описанных выше, на этот раз я дал GPT-4 новую тему и попросил написать пять возможных названий песен с описаниями.

RobG: Придумайте названия для пяти песен в этом стиле о преодолении страхов. Добавьте описание смысла каждой песни одним предложением.

GPT-4:
«Break Through the Shadows»
Эта песня о поиске внутренней силы и мужества, чтобы выйти из своей зоны комфорта и столкнуться с неизвестным.

«Бесстрашное сердцебиение»
Мощный гимн, воспевающий стойкость человеческого духа, побуждающий слушателей принять свои страхи и превратить их в движущую силу личного роста.

«Восхождение над бурей»
В этой песне рассказывается история преодоления невзгод и испытаний, иллюстрирующая, как столкновение со своими страхами может привести к новым силам и самопознанию.

«Освобожденное мужество»
Мотивирующая мелодия, которая подчеркивает важность освобождения от цепей страха и неуверенности в себе, побуждая людей следовать за своей мечтой с неустанной решимостью.

«Танцуй со страхом»
Оптимистичный трек, который побуждает слушателей принять и признать свои страхи, используя их в качестве катализатора личного роста и трансформации.

Все они были хороши, хотя читались как мотивационные плакаты. Но в целом я считаю, что «Танец со страхом» был лучшим из всех. И я знаю, что ска — отличный стиль музыки для танцев.

Как и в примерах выше, я попросил GPT-4 написать текст для новой песни.

RobG: Напишите текст для «Dance with the Fear».

GPT-4:
[Куплет 1]
Просыпаясь в новый день,
Чувствуя страх, но не отворачиваясь,
Столкнувшись лицом к лицу с неизвестным , вот с чего мы начнем,
С открытым разумом и бесстрашным сердцем.

[Pre-Chorus]
Хватит прятаться, больше не сомневаться,
Пришло время дать волю нашему мужеству.

[Припев]
Танцуй со страхом, не убегай,
Прими вызов, будь что будет.
Найди свой ритм, столкнись с неизвестностью,
С каждым шагом, твоя сила выросла.

[Куплет 2]
Во тьме мы найдем свет,
Ведомые мечтами, которые улетают.
Нет больше ни дрожи, ни страха,
Вместе мы взлететь на новые высоты.

[Предварительный припев] …
[Припев] …

[Мост]
Когда страх стучится в твою дверь,
Встань прямо и встретись лицом к лицу с ним еще раз.
Путь долог, но ты обнаружишь,
Ты сильнее чем вы поняли.

[Припев] …

[Outro]
Так что танцуйте со страхом, пусть мужество ведет,
Вместе мы победим, вместе мы добьемся успеха.
Совершите прыжок, и вы увидите,
> Ты найдешь в себе силы и будешь свободен.

Вау, это было очень приятно! Это немного банально, так как оно битком набито мотивационными указами. И снова зарифмовал все куплеты, что вполне подходит для песни. Я заметил, что последний куплет в бридже не совсем рифмуется.

Путь долгий, но вы обнаружите,
что вы сильнее, чем осознали.

Поэтому я попросил GPT-4 посмотреть, сможет ли он это исправить.

RobG: Перепишите последние две строчки моста так, чтобы слова рифмовались.

GPT-4:
Путь долгий, но помните,
вы сильнее страхов, которые найдёте.

Это было хорошее, творческое решение. Если вам не нравится то, что он написал, дайте ему конструктивный отзыв; обычно он отлично справляется с позитивными изменениями. Это согласуется с моим взглядом на использование систем ИИ в качестве партнера по написанию.

Краткое содержание

Я показал, как GPT-4 может писать новые тексты песен, используя различные схемы рифмовки. Я показал технику вовлечения системы в обсуждение стиля и смысла существующих текстов перед тем, как заставить ее писать новые, как форму предварительной подготовки.

Следующие шаги

Следующие шаги могут включать в себя более тщательное исследование сильных и слабых сторон системы, чтобы найти баланс между двумя целями написания хорошей прозы и соблюдением определенной структуры рифмовки. Следующие шаги могут также включать в себя изучение метра путем составления графиков слогов и образцов ударения в текстах песен. Ознакомьтесь со второй и третьей частями этой серии, чтобы узнать, как использовать GPT-4 для написания аккордов и мелодий для песен.

Обсуждение

Хотя GPT-4 лучше пишет тексты, чем более ранние языковые модели, он далек от совершенства. В лучшем случае это нормальный автор песен и полезный партнер по написанию песен. Тем не менее, тенденция развития AI/ML в обработке естественного языка в настоящее время находится на экспоненциальной траектории улучшения. Что это значит для авторов песен и любителей музыки?

Из того, что я видел, у авторов песен и музыкантов разные мнения относительно использования новых технологий; некоторые принимают его, некоторые осуждают, но большинство в конечном итоге используют его, если он полезен. Я думаю, что это будет верно и для использования моделей ИИ. Это как использовать онлайн-словарь рифм, чтобы закончить стих. Это может помочь, а может и нет, но автор песен попробует и примет решение.

И, по большей части, я не думаю, что аудитория слишком заботится о том, какие инструменты авторы песен и музыканты используют для создания своих песен. Например, мы знаем, что Auto-Tune часто используется за кулисами для исправления вокального исполнения. При использовании с нормальными настройками для приличного певца большинство людей не могут сказать, и, вероятно, им все равно. Это не было замечено публикой, пока Шер не включил его в режим жесткой настройки в Believe, а Т-Пейн не использовал это как явный эффект для своей музыки. Я думаю, что тот же цикл повторится и с языковыми моделями. По мере улучшения моделей большинство поклонников не смогут сказать, что их используют, и, вероятно, им будет все равно. Если песни хорошие, они им понравятся.

Исходный код

Исходный код этого проекта доступен на GitHub.

Благодарности

Я хочу поблагодарить Jon Gryckiewicz из Rhode Iceland, Fez Aswat из Hi Fi Monk и Pete Fayan из Agents за участие в этом проекте. Я также хочу поблагодарить Дженнифер Лим за рецензирование статьи и предоставление отзывов.

Рекомендации

[1] Т. Браун и др., Языковые модели — это немногие ученики (2020) NeurIPS 2020

[2] Дж. Шульман и др., Введение в ChatGPT (2022 г.)

[3] OpenAI, Технический отчет GPT-4 (2023 г.)

[4] A, Рэдфорд и др., Надежное распознавание речи с помощью крупномасштабного слабого контроля (2022)

Чтобы получить неограниченный доступ ко всем статьям на Medium, становитесь участником за 5 долларов в месяц. Не члены могут читать только три заблокированных истории каждый месяц.