Джонатан Лэнси и Джош Конвайзер также внесли свой вклад в эту статью.

С таким количеством книг, публикуемых каждый год, может ли автор знать, какое место его стиль занимает в литературном диапазоне, чтобы он мог лучше понимать свою аудиторию и ориентироваться на нее?

На писателей однозначно влияет то, что они читают. Каждая книга написана на плечах предшествующих и содержит производные литературные элементы, включая тему, сюжет, характер, сеттинг или стиль. В таком случае логично, что мы можем сопоставить корреляции между книгами и создать генеалогическое древо литературной ДНК, позволяющее писателям найти свой голос в великой семье мировой литературы.

Написать книгу сложно. Доставить книгу на целевой рынок еще сложнее. Как компания, возглавляемая автором, Booxby стремится доставить нужную книгу нужному читателю в нужное время. Мы создаем ИИ. платформа, которая помогает книгам полностью раскрыть свой рыночный потенциал. Частично мы делаем это, анализируя текст романов, чтобы найти книги, сопоставимые по стилю письма.

Почему мы приближаемся к открытию книги, анализируя стиль письма?

Мы провели подсчеты, опросив 800 человек, чтобы понять, чего читатели больше всего хотят от рекомендации книги. 84% хотели книги, соответствующие их вкусам и настроению. Они объяснили, что вкусы зависят от стиля письма и настроения от опыта, который они хотят получить от книги, например преследующий, красивый, переворачивающий страницы.

Чтобы удовлетворить желание читателей соответствовать вкусу (один из нескольких факторов, которые мы учитываем), Боксби построил модель, позволяющую идентифицировать произведения со схожим стилем письма (помимо темы, темы или концепции), используя инновации в обработке естественного языка и машинном обучении. Мы хотели знать, возможно ли для компьютера научиться читать так хорошо, чтобы он мог точно определять образцы стиля письма, позволяя авторам, агентам и издателям лучше позиционировать и продавать свои книги.

Количественная оценка стиля письма

Может ли компьютер выявить скрытые закономерности и взаимосвязи, существующие между письменным текстом?

Чтобы ответить на этот вопрос, мы начали с накопления значительного набора данных для построения нашей модели. Учитывая естественную природу машинного обучения, Буксби становится умнее, чем больше она читает, поэтому мы скармливали ей примерно 14 000 романов.

Используя обработку естественного языка, мы извлекли из каждого романа ряд векторов признаков, которые мы называем «литературной ДНК» романа. Эти векторы содержат стиль написания книги через используемые части речи, темп, фонологические закономерности (музыкальность пьесы) и множество других элементов.

Оттуда мы изучили этих конкретных авторов с многочисленными книгами в нашем корпусе и использовали наши запатентованные методы машинного обучения, чтобы выявить закономерности в стиле каждого автора. Это позволило нам создать алгоритмы сопоставления стилей, показывающие, насколько вероятно, что какая-либо книга содержит литературную ДНК конкретного автора (мера сходства авторов Боксби). Сравнивая показатели сходства по авторам книг в нашем корпусе с аналогичными показателями новой книги, мы составили список стилистически схожих сопоставимых названий.

Подумаешь? С этим А. на основе данных, новые книги могут быть размещены в рамках предварительной публикации мировой литературы. Это ценная информация для авторов и всех, кто участвует в процессе публикации; он смягчает догадки и человеческие предубеждения, которые так часто мешают лучшим намерениям любой книги. Что наиболее важно, эти данные обеспечивают точную основу для позиционирования и маркетинга книги, чтобы ее можно было продать нужным читателям в нужное время.

Насколько умен Booxby? Эксперимент

Как только наши алгоритмы смогли генерировать сопоставимые заголовки (композиции), нам понадобился механизм для анализа достоверности этого вывода. Предполагая, что книги одного и того же автора будут иметь похожую литературную ДНК, мы создали подмножество из 2000 книг. Этот набор содержал широкий спектр стилей, а также пару книг от каждого автора в нашем корпусе, написавшего несколько названий.

Чтобы доказать точность наших измерений стиля, нам нужно было показать, что книга, написанная автором «А», больше похожа на другую книгу, написанную автором «А», чем на книгу, написанную случайно выбранным автором «Б». Чтобы запустить тест, мы сгенерировали ранжированный список сопоставимых названий от наиболее похожих до наименее похожих для каждой книги в нашем подмножестве. Затем мы посмотрели, где пара одного автора оказалась среди ранжированных композиций.

Для большинства книг в нашем наборе данных (которые представляют собой среднюю меру) книга, написанная тем же автором, попала в 10% лучших сочинений, что означает, что она была оценена как более похожая на свою пару, чем 90% других книг. . Мы обнаружили, что эти результаты устойчивы по широкому диапазону параметров настройки алгоритма.

Влияние соответствия стилей

Внедрение А. Мощные алгоритмы для анализа содержания книг представляют собой кардинальные изменения в издательском мире. Маркетинговые и позиционные решения в публикации будут все больше основываться на таких моделях, как наша собственная, как и системы рекомендаций читателей. Этот процесс подбора стилей в сочетании с другими результатами Booxby предложит мощный набор инструментов, управляемых данными, для повышения доступности книг, помогая авторам и издателям находить читателей и помогая читателям находить книги, которые им нравятся.