Мои мечты о стартапе в сфере машинного обучения и текстового программирования постепенно воплощаются в реальность.

Как писатель и редактор, специализирующийся в основном на технологиях, я был мгновенно заинтригован, когда OpenAI, некоммерческая организация, якобы созданная для предотвращения использования искусственного интеллекта. от ужасного использования, объявил, что создал крупномасштабную неконтролируемую языковую модель (названную GPT-2), способную генерировать последовательные абзацы текста (согласно записи в блоге института).

Обученный набором данных из 8 миллионов веб-страниц (с 1,5 миллиардами параметров), GPT-2 предположительно может достичь «высочайшего уровня производительности во многих тестах языкового моделирования». Другими словами, он мог эффективно предсказать следующее слово в текстовой строке.

Люди были в шоке, ожидая, что эта модель приведет к появлению сверхмощных «фейковых новостей». Опасаясь этой самой опасности, OpenAI даже отказался выпустить полную версию этой штуки.

Но затем смельчак по имени Адам Кинг (@AdamDanielKing) создал среднюю модель GPT-2, получившую название 345M (потому что она использует 345 миллионов параметров вместо 1,5 миллиарда). В то время как GPT-2 был обучен только предсказывать следующее слово в тексте, он неожиданно приобрел базовые навыки в некоторых задачах, таких как перевод с одного языка на другой и ответы на вопросы, - писал он. При этом никто не говорит, что он будет оцениваться по этим задачам.

Я был заинтригован еще больше: может ли кто-нибудь использовать подобную модель для создания прозы, скажем, для стартапа, который создает отчеты? Могло ли оно даже писать книги? В течение многих лет я думал о компании, использующей искусственный интеллект. и машинное обучение (M.L.), чтобы создавать бесконечное количество любовных и целенаправленных романов - мой корабль наконец прибыл?

Я опробовал модель (и вы тоже можете!), Взяв за основу некоторые из самых знаковых первых строк литературы. Вот пошаговое руководство:

Эксперимент

Давайте начнем с небольшого фрагмента книги Джейн Остин «Гордость и предубеждение». Как алгоритм работает с манерами и браком эпохи Британского Регентства? (Оригинальное письмо Остин выделено жирным шрифтом; все последующее - провидение А.И.)

Это общепризнанная истина, что одинокий мужчина, обладающий хорошим состоянием, должен нуждаться в жене. Отсутствие достаточного количества жен означало бы, что нельзя было позволить себе содержать семью или имущество без дополнительных затрат. Как и у всех людей, здоровье женщины требует, чтобы она сама стирала белье. Это означает, что она должна сама готовить себе еду, стирать одежду, купаться и одеваться. Для этого им нужен большой запас внутренних пошлин. Как упоминалось ранее, многим людям кажется, что этого недостаточно. Есть проблемы и у неженатых родителей, которые весь день проводят дома, даже сами заботятся о детях. Это действительно складывается, если учесть тот факт, что взрослому, не состоящему в браке, требуется огромная сумма денег, чтобы содержать себя и оплачивать свои собственные расходы.

Так что мы можем сделать? Что ж, во-первых, нам нужно перестать поощрять женщин думать о браке как о ступеньке к хорошему мужу. Нет, партнер - не ступенька ...

Что ж, это было интересно - алгоритм достаточно «умен», чтобы продолжать болтать о домашнем хозяйстве, хотя он быстро превращается из тезиса первоначального предложения в расплывчатую мешанину о деньгах и домашней ответственности. Остин, с ее жесткой прозой, вероятно, был бы потрясен.

Теперь давайте приблизимся к ХХ веку и посмотрим, как алгоритм справляется с другим шедевром (и одним из самых известных вступительных предложений в истории литературы): «Над пропастью во ржи» Сэлинджера. (Опять же, жирным шрифтом выделено исходное предложение; все, что идет после, сгенерировано машиной.)

Если вы действительно хотите услышать об этом, первое, что вы, вероятно, захотите узнать, - это где я родился, и каким было мое паршивое детство, и чем были заняты мои родители и все остальное до того, как у них появился я, и все это дерьмо с Дэвидом Копперфильдом, но я не хочу вдаваться в подробности, если вы хотите знать правду. Мне все равно не хотелось бы, чтобы вы это слушали.

"Что ты имеешь в виду?" - выпалил я.

«Нам не нужна твоя кровь». сказал человек, который ждал на заднем сиденье рядом со мной. Он со смехом сказал, что, когда мы с родителями переехали в Лос-Анджелес из нашей родной деревни Пуйо в Северной Мексике в 1974 году, он и его брат и я отказались от нашего семейного бизнеса и решили переехать в Сан-Диего, Калифорния, чтобы попытаться принять участие в акции, и тогда у нас возникла настоящая проблема с экономикой, и я стал настолько плох в этом, что мой брат, тот, у кого был пистолет, был готов унизить меня на всю жизнь. Итак, я был здесь.

Машинное обучение поразительно хорошо воспроизводит стиль прозы Сэлинджера, хотя его «сюжет» предсказуемо отклоняется в странном направлении. Говоря о странных направлениях, я хотел посмотреть, что произойдет, когда эта система будет представлена ​​чем-то, что на самом деле не было английским, - «Пробуждением по Финнегану» Джеймса Джойса, экспериментальной работой, написанной в основном на идиосинкразическом языке; каламбуры и портмоне (т. е. смешение слов с новыми) здесь в порядке вещей, и есть аспект потока сознания, который машина могла бы действительно оценить. Вот так:

Речной путь мимо Евы и Адама, от поворота на берегу к излучине бухты, приводит нас на товарищеском викусе рециркуляции обратно к замку Хоут и его окрестностям. Все это, если брать с нашей точки зрения замок, было в значительной степени ограждением; крепостная стена до выхода из реки была четырехъярусной, а в нескольких местах - одной (с небольшим наклоном) такой же. Но не следует думать, что Адамов замок, как и другие замки, всегда один и тот же. Здесь, в первую очередь, Адамово здание является главным зданием того, что можно назвать башней-памятником, высокой деревянной башней около двенадцати футов высотой, с внешней и верхней частью из дерева, украшенной фигурами змей. Интерьер состоит из двух или трех ярусов сваи-бедритто, каждый из которых имеет площадь двенадцать футов и ширину около двенадцати дюймов, и на этом плане их можно увидеть поднимающимися в так называемый длинный ряд или ряд рядов внутри. стена замка, возвышающаяся над…

Столкнувшись с Джойсом в его самом, э-э, «исследовательском», система делает резкий переход к английской и традиционной прозе. Безопасный ход!

Заключение

Мы очень далеки от апокалипсиса фейковых новостей, на который мрачно намекал OpenAI, хотя (честно говоря) мы также полагаемся на гораздо более слабую модель (и не очень много семян - для будущего эксперимента, я '' посмотрим, какой результат получается при вводе большего текста). По крайней мере, на данный момент я с уверенностью могу сказать, что если вы когда-либо хотели создать компанию, основанную на автоматизации текста, вам, возможно, придется подождать несколько лет, прежде чем эти модели станут безупречно сложными.

И для писателей и редакторов-людей (таких как я!) Это действительно хорошо. Нам пока не нужно беспокоиться об автоматизации наших рабочих мест.