Два года назад Outbrain и Zemanta объединили усилия. Это, среди многих других замечательных вещей, также привело к большому двустороннему обмену знаниями между командами Zemanta по науке о данных и группами рекомендаций Outbrain. Неизбежно, как в наших алгоритмах, так и в понимании был достигнут значительный прогресс. И, конечно же, мы еще не исчерпали огромное количество новых идей, возникающих в результате наших дискуссий.

В Outbrain и Zemanta мы знаем, насколько важен внутренний обмен знаниями и опытом, но мы также считаем, что крайне важно делиться знаниями с более широким сообществом. И в нашем стремлении сделать это, помимо других проектов, мы также начали Летнюю школу Zemanta по науке о данных.

Вторая ежегодная Летняя школа Data Science

В июле мы провели вторую ежегодную Летнюю школу по науке о данных в офисе Zemanta в Любляне, Словения. Среди многих претендентов мы выбрали группу очень перспективных молодых специалистов и/или студентов и пригласили их присоединиться к нам на неделю мероприятий, посвященных науке о данных, где они узнали, как мы применяем науку о данных и машинное обучение в этой отрасли, богатой данными.

Структура летней школы

Недельная учебная программа должна была быть очень практичной и практической, но в ней также были переплетены теоретические лекции. Участники впервые узнали об инструментах и ​​методах, которые мы используем в нашей повседневной работе в качестве специалистов по данным в отрасли. Они узнали, как использовать такие инструменты, как git для контроля версий, правильно настроить среду Python, использовать некоторые библиотеки Python, такие как numpy, pandas для обработки данных, matplotlib для визуализации и scikit-learn для создания некоторых базовых предикторов.

Затем, после настройки своей среды, они замочил ноги, участвуя в вызове Kaggle. Некоторые участники уже участвовали в соревнованиях Kaggle раньше, поэтому они поделились своим опытом и ноу-хау, а для некоторых это был их первый раз, поэтому они попытались собрать как можно больше информации.

Наконец, мы предоставили им массивный реальный набор данных, извлеченный из производства, на котором они имели возможность построить свои собственные предикторы для оценки вероятности кликов (CTR). После тщательного изучения и анализа более 50 предоставленных функций у них была возможность использовать выбранный ими инструмент для прогнозирования — некоторые изучили scikit-learn более подробно, в то время как другие выбрали различные библиотеки, такие как XGBoost для деревьев с градиентным усилением, XLearn для факторизации. машины или TensorFlow для нейронных сетей. Наконец, все команды представили свои работы и поделились полученными знаниями.

В перерывах между практическими экспериментами они участвовали во многих интересных беседах и дискуссиях на самые разные темы, от того, как работает программная реклама, что такое торги в реальном времени, теория аукционов и какие алгоритмы и системы мы разрабатываем в Zemanta; вплоть до анализа данных, развертывания моделей машинного обучения в производстве и некоторых наших реальных сценариев и историй.

Что должны были сказать участники

После успешного прохождения недельной программы участники получили сертификаты и заполнили анонимные формы обратной связи, в которых говорилось: «Отличный способ провести неделю — отличная атмосфера!», «Доклады были особенно интересными, так как они дают хорошее представление о компании. », «Работа с реальными данными дала мне возможность лично испытать проблемы, над которыми работают специалисты по данным», — поэтому мы можем с большой уверенностью сказать, что участники многому научились и получили массу удовольствия от этого.

Вывод

Это была вторая итерация летней школы Zemanta по науке о данных в нашем офисе в Любляне в Словении. Наставники Роберт, Лука и Анже и я прекрасно провели время, поделившись знаниями со студентами, которые получили важные сведения о процессах, лежащих в основе применения науки о данных и машинного обучения для решения реальных проблем в отрасли, поэтому мы очень рады принять у себя больше таких события в будущем.

Даворин Копич
Руководитель отдела обработки и анализа данных Zemanta, компании Outbrain

Первоначально опубликовано на https://www.outbrain.com 18 сентября 2019 г.