В прошлом месяце (10–14 сентября 2018 г.) у меня была возможность посетить ECML PKDD (Европейская конференция по машинному обучению, принципам и практике обнаружения знаний в базах данных) в Дублине. Как аспирант первого курса, это была моя первая международная конференция, и я постараюсь дать вам краткий обзор этих 5 дней, а также свои мысли по этому поводу.

Как вы понимаете, программа была очень насыщенной. Каждый нашел что-то для себя: графики, обучение, метод ядра, классификация, вероятностные методы, интеллектуальный анализ данных, временные ряды, практические занятия и, конечно же… Глубокое обучение!

Мои мысли о форуме PhD

Первый и последний день были посвящены обучающим программам и Форуму PhD. Я был участником форума PhD с 16 другими аспирантами, и это действительно было одним из лучших опытов в моей молодой докторской жизни. Во-первых, у нас была возможность представить нашу тему с помощью 5-минутного краткого выступления (с 4 слайдами). Я не мог сказать, была ли комната заполнена, пуста, сосредоточена или спала во время этого разговора, я был слишком озабочен, чтобы заметить! Было интересно наблюдать, как другие аспиранты представляют свой предмет и насколько они разные, но мы все говорили на одном языке: статистике. 5-минутный формат был прекрасной возможностью и хорошим упражнением, потому что сложно подвести итоги тезиса за несколько минут. Кроме того, основная цель этого выступления заключалась в том, чтобы побудить людей узнать больше и прийти посмотреть плакат позже.

Но прямо перед самой стендовой сессией мы присутствовали на двух вдохновляющих лекциях во время этого Форума: первая была проведена Томасом Гартнером из Ноттингемского университета, «Получение докторской степени, как выжить и получить удовольствие от докторской степени?». Второй был дан Нилом Шахом, научным сотрудником Snap Inc. в Венеции, Калифорния. Оба они напомнили нам, что диссертация - это не спринт, а марафон. Они также сосредоточились на объяснении, насколько важно найти баланс между работой и личной жизнью. После почти одного года работы в аспирантуре я старался очень внимательно слушать и учиться на их опыте.

После этих разговоров мы отправились на стендовую сессию, которую я ждал больше всего. Наверное, потому, что я так много работал над своим плакатом и своей речью. Мне очень понравилось пообщаться с кучей исследователей, исследователей данных и аспирантов в течение этого часа. Многие из них слушали мой флеш-доклад и очень интересовались моей темой «Предсказание реакции пользователя в мобильной рекламе». У меня была возможность рассказать о процессе мобильной рекламы, моей первой смешанной модели для кластеризации, визуализации данных и моих первых результатах. Мне больше всего нравилось, когда исследователи, с которыми я разговаривал, задавали мне вопросы, о которых я еще не думал. Единственное, о чем я сожалею об этом сеансе, - это то, что одного часа слишком мало. Дополнительный час был бы идеальным, но этот день на форуме PhD был отличным опытом. Формат идеально подходил для первой конференции, и я настоятельно рекомендую его каждому аспиранту.

Keynote приветственного мероприятия

Этот первый день завершился приветственным словом, которое произнесла Коринна Кортес, глава отдела исследований Google в Нью-Йорке. Она объяснила, как Google борется с фальшивыми новостями и как они пытаются избежать их на своей платформе. Она также напомнила нам, что Google Search - это инструмент поиска, а не реестр абсолютной истины, даже если Google максимально борется с дезинформацией и разрабатывает алгоритмы машинного обучения для достижения этой важной цели.

Коринна Кортес также представила новый инструмент: Поиск по набору данных, запущенный 5 сентября 2018 г., цель которого - упростить поиск наборов данных для специалистов по данным и в целом для всех, кто работает с данными. Лично я обязательно попробую!

Интерпретируемое машинное обучение

Со вторника по четверг были три «обычных» дня конференции. Было много выступлений и программных выступлений. Я просто кратко изложу те, которые мне понравились больше всего.

Во вторник Синтия Рудин открыла день докладом на тему Интерпретируемое машинное обучение. В эпоху черных ящиков и очень известных инструментов глубокого обучения было интересно увидеть такого блестящего человека, работающего над интерпретируемым алгоритмом. Результат прогноза и его высокая точность, конечно, важны, но для некоторых рабочих областей, таких как Здоровье, возможность объяснить, почему прогнозы хорошие (или нет), или уточнить, какие переменные являются наиболее важными для прогноза, также имеет решающее значение. Она продемонстрировала как создавать прогностические модели рецидивов, которые достаточно точны, прозрачны и интерпретируемы, чтобы их можно было использовать для принятия решений в сфере правосудия.

Applied Data Science Tracks: электронная коммерция и рекомендации

Мне очень не терпелось увидеть треки Applied Data Science (ADS) в электронной коммерции, учитывая, что тема моей диссертации - реклама. На этой сессии присутствовали компании Alibaba, Baidu, JD.com и ASOS. Для всех из них основной целью было понять профиль пользователя и активность пользователей на своем веб-сайте. Например, в ASOS они пытаются понять, когда клиент посетит веб-сайт в следующий раз, и со статистической точки зрения: спрогнозировать время возврата веб-пользователя на ASOS.com. Они используют множество функций (временных, поведенческих и устройств) и комбинируют модель выживания с повторяющейся нейронной сетью для достижения этой цели. Эта комбинация обеспечивает наилучший результат, даже если им еще предстоит работа по улучшению и уменьшению их среднеквадратичной ошибки времени (на данный момент около 60 дней).

ADS на рекомендательной системе также была интересна. Мне особенно понравился доклад исследователя из Принстонского университета, который затронул следующую проблему: «какова вероятность того, что учащийся u опубликует в ветке r тему k?» Он работал с данными сообществ (например, форумов), чтобы дать пользователю наилучшие рекомендации. Он работает над процессом Хокса, чтобы смоделировать свою проблему.

Сеанс нектара

Еще одна сессия, которая мне очень понравилась, была сессия Nectar. Эта сессия позволяет исследователям на границе различных областей (статистика с другими) представить свои работы. Затем были презентации о прогнозировании настроения, обнаружении животных, музыкальных рекомендательных системах….

Мое внимание привлекла тема Обнаружение животных на аэрофотоснимках аспиранта Бенджамина Келленбергера. Основная цель - иметь возможность обнаруживать животных на снимках с дронов, чтобы посчитать их и сохранить редкие, охраняемые виды. Особенность и сложность его исследования заключается в высокой несбалансированности набора данных, с которым он работает. Действительно, на изображениях много природы, деревьев, дорог ... и даже человеческим глазом очень сложно обнаружить присутствие животных. Во время выступления докладчик пояснил, что он разрабатывает модель сверточной нейронной сети (CNN). На самом деле, CNN - очень распространенная модель для обнаружения изображений, но он представил модель из своего опыта и дал нам лучшие практики для работы с CNN над несбалансированным набором данных: изучение учебной программы, жесткий отрицательный анализ, пограничный класс . Я действительно приглашаю вас взглянуть на бумагу, если вам интересны такие проблемы или вам просто интересно узнать о глубоких нейронных сетях в реальной жизни.

До встречи в следующем году ECML PKDD?

Помимо всех презентаций, у нас было время пообщаться с исследователями со всего мира во время перерывов на кофе, стендовых докладов или даже конференции за ужином (которая проходила в красивом и типичном ирландском месте). Общение со старшими исследователями, другими аспирантами, специалистами по отраслевым данным было одним из моих любимых занятий на этой неделе, потому что у меня было так много чему поучиться у них и так много советов, которые я получил из их опыта в статистике.

В заключение я бы сказал, что мне очень понравилась неделя на ECML PKDD 2018. В следующем году конференция состоится в Германии. Надеюсь, у меня получится снова, но, может быть, на этот раз я буду выступать регулярно?

Благодаря разнообразию сессий (трек нектара, трек прикладной науки о данных, дневник, демонстрационный трек, форум PhD, учебные пособия ...), почти все в коротком формате (20 минут), я думаю, что есть место для всех, кто хочет делиться своими исследованиями, давать и получать отзывы от исследователей со всего мира.

Большое спасибо TabMo за предоставленную возможность!