В поисках идеального наряда с помощником Dida AI Assistant от Alibaba

Как техническая группа Alibaba использует глубокое обучение, чтобы помочь онлайн-рынкам добиваться высоких результатов за счет создания качественных дисплеев одежды

Поддержание успеха в онлайн-розничной торговле - это постоянная борьба, которая требует от ритейлеров определения наилучшего метода представления своей продукции покупателям. Один из способов - сделать привлекательный плакат для предмета, который раньше требовал много человеческого труда. Другой способ - предлагать комбинации товаров, особенно одежды и аксессуаров, чтобы побудить покупателей совершить дополнительную покупку.

Ассистент Dida AI от Alibaba сочетает в себе обе эти стратегии.

Дида создан по образцу известного дизайнера плакатов Alibaba, движка ИИ, Лу Баня. Как и Лу Бань, Дида использует графические алгоритмы для сопоставления данных и обучения генерации целевых высококачественных изображений популярных комбинаций предметов. Хотя Dida в основном использовалась для создания персонализированных комбинаций одежды для онлайн-торговли модной одеждой, теперь ее использование распространилось на другие области, такие как копирайтинг для описания продукта.

Итак, как работает Дида? Технически Dida - это не единое целое, а комбинация нескольких платформ и алгоритмов, включая интерфейсные операции, алгоритм, мозаику изображений и персонализированные платформы запуска. Во-первых, операторы выбирают элементы во внешнем интерфейсе и назначают элементы для объединения, используя глубокую обработку изображений и алгоритмы комбинирования. Когда один или несколько элементов вызывают запрос комбинации для создания комбинации, Dida ищет дополнительные элементы, которые подходят и соответствуют определенным правилам работы. Затем на основе информации из инициирующих и возвращенных элементов создаются описательные заголовки.

Наконец, элементы синтезируются и отображаются в визуально привлекательной форме с использованием умной типографики. Затем изображения комбинаций элементов создаются, персонализируются и отправляются пользователям с помощью алгоритмов рекомендаций.

По состоянию на февраль 2017 года алгоритмы Dida были запущены на различных платформах электронной коммерции Alibaba, включая Taobao и Tmall. Для крупных рекламных мероприятий Dida помогает операторам генерировать миллионы комбинаций для широкого спектра продуктов, и ее используют сотни тысяч экспертов по дизайну Alibaba. Alibaba уже отмечает положительные результаты испытаний на нескольких своих страницах, включая iFashion, Mobile Taobao Primary Focus и YouHaoHuo.

В следующем разделе кратко описаны три основных преимущества использования платформы Dida, а в оставшейся части этой статьи обсуждаются технические основы платформы Dida и истории успеха iFashion, Mobile Taobao Primary Focus и YouHaoHuo.

Кратко о преимуществах Диды

1. Производство контента

Dida использует сеть глубокого обучения для сбора обширных коллекций информации от пользователей, продуктов и знаний об операциях. При вводе данных для помощи в создании контента движок Dida AI работает на том же уровне качества, что и опытный эксперт по дизайну. Графические алгоритмы, созданные Dida, затем применяются во многих сферах бизнеса.

2. Включение платформы

Dida сочетает в себе графические алгоритмы и создание платформы, чтобы позволить операторам выбирать элементы на платформе Dida и генерировать комбинации элементов и персонализированные запуски в рамках единого процесса управления.

3. Повышение эффективности

Среднестатистический эксперт по дизайну ежедневно производит тысячи комбинаций элементов. Платформа Dida генерирует миллионы комбинаций предметов в час, что значительно повышает эффективность. Dida также комбинирует алгоритмы для увеличения общего размера информационного пула и улучшения персонализации.

Технические основы Dida

При использовании для онлайн-торговли модной одеждой Dida генерирует комбинации и описания одежды, что требует разработки графических и текстовых алгоритмов. Все данные нижнего уровня являются общими, включая изображения и заголовки для элементов, оперативные входные данные и различную другую информацию. Дида использует эту информацию для создания нарядов, а затем создает описания для каждого из них.

Во-первых, алгоритм комбинирования изображений использует сверточные нейронные сети (CNN) для предварительной обработки изображений. Затем выполняются два алгоритма комбинационной логики с использованием модели глубокого семантического сходства (DSSM):

- Производство оборудования для секвенирования на основе Long Short-Term Memory (LSTM).

- Производство оборудования без упорядочения на основе Deep Aggregated Network (DAN).

Сгенерированные наряды импортируются в контекстно-зависимые сети генераторов указателей (CPGN) для генерации текстовых описаний для каждого наряда. Окончательный результат включает текст и графики, которые предоставляют целостное описание каждой комбинации.

Соответствующие алгоритмы обработки изображений и текста представлены в следующих разделах.

Алгоритмы изображения

Этот раздел включает в себя всю необходимую подготовку и процессы для использования алгоритмов изображения в этом сценарии.

Данные

Данные об обучении Alibaba изначально были получены с Polyvore, веб-сайта, на котором хранится огромное количество примеров комбинаций элементов, представленных пользователями, которые далее разграничиваются на основе таких факторов, как лайки и комментарии пользователей. Когда внутренняя деловая практика Taobao утвердилась, Alibaba создала внутреннюю базу данных, используя сотни тысяч комбинаций высококачественной одежды, полученных от опытных экспертов Taobao.

Характеристика

Во-первых, предметы должны быть охарактеризованы. Изображения являются наиболее интуитивно понятными с точки зрения доставки информации. Alibaba использует библиотеку Лу Баня, состоящую из миллионов изображений на белом фоне, для создания характеристик изображений для элементов в определенном пуле элементов. Это достигается с помощью начальной модели v3 CNN. Процесс выглядит следующим образом:

1. Предварительно обученная модель настраивается с использованием категории в качестве метки, а векторное выражение предпоследнего слоя извлекается и используется в качестве графического представления элемента.

2. Векторные выражения для всех изображений с ограничениями категорий организованы в кластеры с использованием кластеризации K-средних. Некоторые оптимизации были сделаны в кластеризации K-средних, которая обеспечивает централизованное и сбалансированное распределение, что делает ее идеальной для использования в этом сценарии. Оптимизированная кластеризация K-средних использует различия в отношениях и комбинациях категорий, а также распределенное количество элементов для различных категорий в качестве определяющих. Отдельная категория может включать множество различных кластеров. Этот шаг гарантирует, что каждый элемент попадает в кластер.

3. Модель снова настраивается с использованием inception v3, при этом кластеры, созданные на шаге 2, используются в качестве меток. Также извлекаются векторные выражения большой размерности. Эти векторные выражения используются в качестве окончательных характеристик изображений.

Модель I: производство комбинации оборудования для секвенирования на основе LSTM

1. Векторы большой размерности получаются с использованием CNN, а векторы дополнительной информации преобразуются с встраиванием и наложением в качестве входного слоя модели.

2. Входные векторы делятся на два маршрута после первого слоя MLP. Один маршрут ведет к сети LSTM для изучения последовательности, а другой ведет к сети DSSM для выравнивания векторов. Детали обоих ниже.

Сеть LSTM

Создание комбинаций - это последовательный процесс. Каждый предмет, созданный для наряда, считается последовательным этапом. Начиная с первого элемента, каждый новый элемент должен быть соотнесен с ранее созданными элементами. Это возможно благодаря внутренним последовательным отношениям сети LSTM. LSTM, расширение рекуррентной нейронной сети (RNN), включает в себя функциональные шлюзы, которые позволяют эффективно фиксировать долгосрочную зависимость.

Для этого сценария S представляет одежду, xt представляет характеристическое представление CNN элемента, а S = x1, x2,…, xN представляет последовательность экипировки. Согласно оценке максимального правдоподобия (MLE), основная цель заключалась в том, чтобы максимизировать ожидание:

Сеть DSSM

Сетевой подход DSSM принят из-за ожидания, что элементы в одной комбинации оборудования должны иметь более близкие расстояния в векторном пространстве. Положительные образцы поступают из онлайн-журналов и качественной одежды. Самые популярные и высококачественные наряды от опытных экспертов Alibaba собираются из онлайн-журнала и делятся на пары, чтобы служить положительным примером для сети DSSM. В качестве отрицательного примера используются наряды, получающие мало кликов. Как показано на рисунке, векторные выражения для элементов перед входом в LSTM проходят через MLP. Когда LSTM генерирует элемент X, X подвергается преобразованию MLP, и вычисляется его расстояние от других элементов, которые еще не вошли в LSTM. Положительные примеры других элементов обозначены как Y +, а отрицательные примеры как Y−. Короткие расстояния между положительными примерами и большие расстояния между отрицательными - идеальная ситуация. Следовательно, убыток выражается как:

где функция sim использует косинусное сходство, θ обозначает параметры, а цель состоит в том, чтобы максимизировать Δ. Мини-пакетный SGD используется для оптимизации θ на GPU.

Модель II: производство одежды без упорядочивания на основе DAN

Запуск первой версии на основе модели LSTM оказался удовлетворительным. Однако последующие исследования показали, что DAN является превосходной моделью. Единственные изменения, внесенные в ранее описанную структуру, - это замена модуля LSTM. Модель DAN обеспечивает более низкие потери и лучшую производительность.

Основная функция DAN - рассматривать наряды как комбинированный режим, а не как режим последовательности. Возьмем, к примеру, одежду, состоящую из топов и брюк. Для обучения сети LSTM требуются две последовательности обучающих данных: топы + брюки и брюки + топы. Для DAN топы и брюки вводятся в сеть как комбинации без последовательных различий.

Данные обучения экипажа вводятся в DAN после прохождения через CNN и встраивания дополнительной информации. Сначала векторы изменяются на нелинейный слой, а затем они попадают в слой объединения. Испытания этого процесса с использованием суммирования и максимального объединения показали, что первый вариант является лучшим. Весь процесс, основанный на DAN, представлен на следующем рисунке.

По сравнению с LSTM, DAN обеспечивает меньшие потери во время обучения. Еще одно преимущество DAN заключается в том, что для построения обучающих данных требуются только комбинированные данные, а не полные перестановки. Меньший объем обучающих данных сокращает время обучения и делает возможной периодическую итерационную модель.

Процесс прогнозирования на основе контекстного графа

Наряды, как правило, определяются по-разному в зависимости от оператора. Продавцы женской одежды часто рассматривают верх + низ + обувь или платье + аксессуары + сумка как законченные наряды. Сплошные платья и джинсы никогда не сочетаются друг с другом. С точки зрения продавца товаров для дома, отсутствие кровати, тумбочки, светильников или обоев может сделать сочетание спальни неполным. На практике операторы часто учитывают сценарий использования и дополнительные ограничения в зависимости от стиля и сезона. Основная трудность в этом сценарии - создание алгоритмов комбинирования, отвечающих потребностям операторов. Alibaba разработала контекстный граф для решения этой проблемы.

Контекстный граф - это набор структурированных правил работы, включая ограничения по категории, стилю, сезону и т. Д. На этапе прогнозирования комбинации экипировки все элементы и их дополнительная информация подвергаются встраиванию, наложению и полному соединению, прежде чем они будут сохранены в пуле элементов.

Возьмем, к примеру, DAN: когда действие отправляет запросы, все инициированные элементы проходят DAN. Без учета ограничений выходные данные MLP используются для поиска похожих элементов в пуле для получения следующего элемента. Согласно контекстному графу, когда ограничения учитываются в поиске по сходству, результаты фильтруются, так что в набор кандидатов попадают только те элементы, которые соответствуют правилам операции. Затем из набора кандидатов выбирается TopK. Всякий раз, когда создается снаряжение, все удовлетворяемые ограничения комбинации пересчитываются с использованием алгоритмов для продвижения генерации следующего элемента и нового набора кандидатов.

Контекстный граф упакован в модель, что делает прогнозирование комбинации экипировки полностью в режиме реального времени. Это также обеспечивает высокую производительность, поскольку каждое сгенерированное оборудование соответствует входным условиям операторов, что снижает затраты на ручную фильтрацию.

Текстовые алгоритмы

В этом разделе описывается вся соответствующая подготовка и процессы для использования текстовых алгоритмов в этом сценарии.

Данные

Знатоки дизайна создали сотни тысяч нарядов, которые сами определяли. Описания этих костюмов сопоставляются и используются в качестве обучающих данных. Входные данные для обучения включают названия предметов и теги экипировки. Слова используются как основная единица.

Модель CPGN

Операционные входы добавляются на основе PGN для установления прочной связи между копирайтингом, предметами и эксплуатационными требованиями. Этот новый подход называется CPGN, и его структура алгоритма выглядит следующим образом:

Весь кадр содержит структуру кодера-декодера. Сначала кодируются исходные данные (x1, x2,…, xn) и операционные входы (z1, z2,…, zn). Каждое отдельное слово из исходных данных проходит через единственный уровень двунаправленной сети LSTM, а скрытое состояние обозначается как hi. Оперативный ввод может быть полным предложением или ключевыми словами. В первом случае все еще применяется обработка LSTM. В последнем случае встраивание применяется непосредственно к ключевым словам, которые обозначаются как ri. В сценариях, где i представляет i-й вход, а t представляет количество шагов декодирования, распределение внимания (at) и векторы контекста (ht ∗ и rt ∗) обозначаются следующим образом:

где η - многослойный MLP, где tanh является его функцией активации, а st представляет статус декодера на t-м шаге.

Распределение внимания рассматривается как вероятность для каждого закодированного исходного слова генерировать декодирование, где ht * и rt * - взвешенные суммы внимания и выражение информации, полученной из исходных утверждений. Распределение вероятностей следующего слова в словаре может быть получено на этой основе:

где g - двухслойная МЛП.

Таким образом определяется вероятность сгенерированного участка. Чтобы сбалансировать наведение и генератор, разработан параметр pgen∈ [0,1], который представляет собой программный переключатель вероятности, связанный с текущим статусом декодера st, векторами контекста ht ∗, rt ∗ и входом декодера yt − 1.

pgen позволяет сгенерировать следующее слово из словаря или скопировать из ввода. Предполагая, что прогнозируемая вероятность каждого слова в словаре равна Pvocab (w), тогда:

где σ - сигмовидная функция.

Текущий P (w) содержит весь словарь, включая слова, которые ранее не были в словаре, но появлялись во входных данных. Это помогает решить проблемы с OOV. На этапе обучения, если t-м целевым словом является wt ∗, потерю можно обозначить как:

Наконец, был введен алгоритм покрытия для устранения повторяющихся слов. Поскольку все алгоритмы запускаются непосредственно в сети, Alibaba добавила слой регулярных выражений после удаления дубликатов в алгоритме, чтобы устранить лазейки.

Примеры из практики Dida

В этом разделе рассматриваются некоторые успешные примеры использования Диды в нарядах iFashion, Mobile Taobao Primary Focus и YouHaoHuo.

iFashion наряд

iFashion - это страница Taobao, где используется сценарий, ориентированный на комбинацию одежды. iFashion поддерживает требования к высокой производительности графических алгоритмов, как с точки зрения качества контента, так и с точки зрения визуального эффекта. Alibaba периодически использует Dida для создания подходящей одежды и текстовых описаний для выбранных товаров iFashion. Это является огромным дополнением к пулу экипировки, который раньше полагался исключительно на вклад ветеранов-экспертов. Одежда, сгенерированная с помощью алгоритма, смешивается с нарядами от опытных экспертов по водопадам, а затем отображается пользователям в персонализированных нажатиях. Создание нарядов с помощью алгоритма дает значительные преимущества, включая снижение затрат, положительные отзывы и высокие коэффициенты конверсии.

Мобильный Taobao в первую очередь

Mobile Taobao Primary Focus - это баннер Taobao с высокими эксплуатационными требованиями. Каждое изображение связано со страницей мероприятия, на которой отображается копирайтинг мероприятия и изображения продаваемых продуктов. При персонализированном запуске алгоритмы, рекомендованные Alibaba, отображали персонализированный контент для каждого пользователя в зависимости от его поведения. До Dida одинаковый копирайтинг использовался для всех комбинаций предметов, даже если изображения были персонализированными.

В этом сценарии графические алгоритмы Dida использовались для создания комбинаций нескольких предметов для швейной промышленности. Полученные в результате комбинации нарядов были высококачественными и обогатили образы и презентацию в основной области внимания.

Alibaba также протестировала использование текстовых алгоритмов для копирайтинга в различных отраслях. При использовании обычного подхода операторы часто используют очень мягкий общий стиль. Например:

· Первичный копирайтинг: Спортивная вечеринка

· Вторичный копирайтинг: выбор брендов, большие скидки

· Преимущества: Спешите за купонами на большие суммы.

Этот стиль копирайтинга утомителен, и потребители его легко игнорируют.

Напротив, Dida создает гораздо более интересный и увлекательный копирайтинг:

В этом примере модель Alibaba использует заголовки, описания и атрибуты предметов (информацию о кубиках для йоги) в качестве входных данных. Операционные входные данные - это ключевые слова или теги отдельных преимуществ (выбор качества, крупные бренды, рекламные акции). Финальный копирайтинг состоит из:

· Первичный копирайтинг: качественный выбор кирпичиков для йоги (комбинация слов, извлеченных из заголовков статей и операционных данных)

· Вторичный копирайтинг: крупные бренды, большие скидки, возврат денег (слова, извлеченные из операционных данных).

Для сравнения, интеллектуальный копирайтинг настраивается для конкретных предметов и событий и описывает продукты интересным образом и подчеркивает их преимущества и связанные с ними события продаж.

Комбинации графиков и текста, созданные для Primary Focus, привели к двузначному процентному увеличению CTR и UCTR.

ЮХаоХо (有好货)

YouHaoHuo - это страница Taobao, которая пользуется большой популярностью среди потребителей благодаря своей флагманской концепции «Haohuo», которая относится к продаже качественных товаров. Многие названия продуктов YouHaoHuo, разработанные опытными экспертами, слишком длинные, чтобы полностью отображаться на текущем макете страницы. Получающееся в результате усечение приводит к нечетким описаниям элементов и не позволяет пользователям просматривать полную информацию об элементах. Alibaba использовала алгоритмы копирайтинга Dida для повторного извлечения ключевой информации из заголовков и ограничивала длину, помогая пользователям принимать более обоснованные решения.

(Оригинальная статья Чен Вэнь 陈雯)

Alibaba Tech

Подробная информация о последних технологиях Alibaba из первых рук → Facebook: Alibaba Tech. Twitter: « AlibabaTech ».