Машинное обучение @ Teads

4 варианта использования из индустрии AdTech

Цифровая реклама - это потрясающая площадка для машинного обучения, она сочетает в себе действия с большим объемом данных, задачи масштабирования и значительную автоматизацию, особенно после того, как стали популярны алгоритмические покупки и продажи рекламы в режиме реального времени.

Имея 20 миллиардов просмотров страниц и более 3 миллиардов уникальных идентификаторов зрителей каждый месяц, мы теперь достигаем интересных объемов для наших алгоритмов.

В этом первом посте мы опишем некоторые варианты использования машинного обучения, над которыми мы работали:

Прогноз коэффициента просмотров
Обнаружение неработающих креативов
Прогноз релевантности запроса ставки
Двойное моделирование

Прогнозирование коэффициента просмотров (VTR)

Когда мы начали экспериментировать с машинным обучением два года назад, мы хотели предсказать вероятность того, что видео будет просмотрено более x секунд, в соответствии с требованиями рекламодателя. Этот прогноз направлен на то, чтобы показывать пользователям только самую интересную рекламу. Учитывая, что в Teads мы взимаем с покупателей плату только за просмотр рекламы, еще одним преимуществом использования этой модели является то, что она позволяет избежать бесполезной траты инвентаря. Когда прогнозируемый коэффициент просмотров для данного рекламодателя слишком низок, возможность показа бесплатна для кого-то другого.

В то время были доступны различные возможные варианты для создания системы машинного обучения. От инициатив с открытым исходным кодом, таких как Spark MLlib, Scikit-Learn и т. Д., До недавно представленной службы управляемого машинного обучения от Amazon. Поскольку мы уже использовали Spark для вычисления аналитических заданий, мы изначально изучали MLlib.

К сожалению, MLlib имел (и все еще имеет) серьезные ограничения для наших вариантов использования. Одна из них заключается в том, что Spark использует DenseVectors в своей реализации логистической регрессии, что несовместимо с разреженными данными большой размерности, такими как наша. Мы также хотели иметь возможность использовать один и тот же код для автономного обучения и онлайн-прогнозов, чтобы избежать расхождений.

Это привело нас к разработке нашей собственной библиотеки прогнозирования, выступающей в качестве уровня абстракции между Spark и базовыми реализациями Breeze и включающей наши собственные алгоритмы. Эта библиотека является частью более общей структуры прогнозирования, которая позволяет нам тестировать новые экспериментальные подходы и гарантирует, что один и тот же код используется как в сети, так и в автономном режиме.

Возвращаясь к прогнозированию VTR, мы использовали нашу структуру для разработки эффективной модели, настроив ее гиперпараметры (продолжительность обучения, регуляризация, оптимизация и т. Д.) И выбрав соответствующий набор функций.

Эти функции включают информацию от рекламодателя, издателя, пользователя и различные взаимодействия между ними. Например, у некоторых объявлений есть лучший VTR на определенных веб-сайтах или для определенных пользователей.

Чтобы быть эффективной, полученная модель изучает 10 ^ 5 + параметров из 10 ^ 7 + примеров и обновляется каждые несколько часов. Для выполнения этого прогноза требуется 1 мс.

Обнаружение неработающих объявлений

В качестве еще одной попытки избежать потерь инвентаря мы применили подход машинного обучения для обнаружения неработающей видеорекламы в том смысле, что ее невозможно воспроизвести должным образом. Дело в том, что мы не можем просто оценить, «сломан» ли креатив, поскольку он может со временем меняться и может быть вызван многими причинами:

Это может быть напрямую связано с доступностью и качеством файлов объявления,
Кроме того, это может быть связано с поведением креатива в зависимости от контекста выполнения. Этот случай невозможно протестировать, поскольку для этого потребуется оценить все комбинации издателей (веб-страницы) и пользовательских контекстов (ОС и тип и версия браузера).

Таким образом, нам нужно было сделать прогноз относительно того, когда видео может быть повреждено, чтобы мы больше не пытались его отображать.

Это дает возможность другим рекламодателям показывать свои объявления, а издателям - увеличивать заполняемость.

Этот алгоритм предсказывает маловероятный запуск объявления и может различать разные контексты.

Прогноз релевантности запроса ставки

Наряду с предыдущими исследованиями мы применили алгоритмические продажи - автоматизированный и неуправляемый способ доставки рекламы. С помощью Programmatic Teads открыла свою платформу для внешнего спроса (DSP). До этой работы, когда бы ни был доступен слот для показа рекламы пользователю, наш SSP использовался для систематической отправки запроса ставки всем подключенным DSP.

Это было довольно неэффективно для обеих сторон, вызывало огромную трату сетевых ресурсов и бесполезную нагрузку на наши подключенные DSP. Здесь стояла задача узнать, какие запросы были интересны покупателям.

Чтобы решить эту проблему, мы разработали модель, которая вычисляет вероятность того, что данный запрос ставки вызовет ответ от данного DSP. Используя эту модель, отправляются только самые релевантные пользователи / контексты. Со стороны покупателя будет виден только качественный инвентарь, это упростит процесс его фильтрации и улучшит общую производительность.

Мы использовали модель логистической регрессии для классификации различных запросов в зависимости от их вероятности получить ответ. Затем мы определили порог, выше которого отправляются запросы. Было изучено несколько комбинаций функций для корректировки модели. Настройка параметров классификатора проводилась во время автономного протокола эксперимента.

В результате мы добились значительного сокращения звонков, которые раньше считались бессмысленными. В среднем мы можем сократить 60% запросов ставок без ущерба для доставки как для DSP, так и для издателей.

Однако сокращение трафика никогда не будет оптимальным, наши модели должны реагировать на изменения рынка. Следовательно, нам необходимо поддерживать высокую скорость исследования и продолжать посылать вызовы с низкой вероятностью ответа для обнаружения любых изменений поведения на рынке.

Моделирование похожих объектов (в процессе)

Некоторые из наших рекламодателей знают конкретных пользователей, которые очень заинтересованы в их бренде или продуктах и хотят продвигаться среди аналогичной аудитории. Мы планируем использовать наши собственные данные и наши инструменты машинного обучения для вычисления сходства между любым пользователем и целевой аудиторией.

Кластеризация пользователей на основе истории просмотров - многообещающий способ решения этой проблемы. Это позволит рекламодателям показывать свою рекламу наиболее заинтересованным и интересным пользователям.

Что дальше

Как вы можете себе представить, существует бесконечный источник приложений для машинного обучения в быстро меняющейся среде AdTech. В частности, другие темы исследований посвящены таким отраслевым проблемам, как:

Конверсия кампании,
Идентификация пользователей между устройствами,
Прогнозирование запасов,
Динамическая креативная оптимизация,
И много других интересных вещей…

Машинное обучение дает нам возможность улучшить качество рекламы со всех сторон и, что наиболее важно, масштабировать наш бизнес. Еще многое предстоит сделать, и мы расширяем нашу команду специалистов по данным и инженеров машинного обучения в наших офисах в Париже и Монпелье, чтобы решить эти захватывающие задачи.

Если вы заинтересованы в присоединении, добро пожаловать, не стесняйтесь связаться с нами на Medium или дать нам крик.

В следующей статье мы поговорим о нашем стеке технологий и инструментах, которые мы создали для эффективного обучения и A / B-тестирования наших моделей прогнозирования.

Машинное обучение @ Teads (часть 2)
Стек, рабочий процесс и практика medium.com

Не стесняйтесь задавать любые вопросы или комментировать, если хотите, чтобы обсуждалась конкретная тема!

Авторы Бенджамин Дэви и Сирил ДУБАРРИ