Благодаря PROS моего работодателя (NYSE: PRO, https://pros.com/) у меня появилась возможность снова посетить KDD в этом году. Мой первый опыт KDD был в 2014 году, когда я был аспирантом, который достиг 5-го места в кубке KDD вместе с тремя другими классными Kagglers. В то время я больше интересовался кластеризацией, визуализацией данных и выбором функций, которые тесно связаны с моей диссертацией. После работы в промышленности я переключаюсь на прогнозирование временных рядов, рекомендации, объяснимый ИИ и т. Д. Действительно интересно наблюдать, как KDD развивается в течение этих лет. В 2014 году глубокое обучение не было такой актуальной темой, как сейчас, и не получило такого широкого применения. Сегодня было разработано так много вариантов архитектур глубокого обучения, которые показали многообещающие современные результаты для различных задач. Я рад видеть, что KDD сохраняет разнообразие тем и вдохновляет исследователей данных и практиков на поиск простых моделей, как это было предложено в лейтмотиве Существует ли простая модель? пользователя Cynthia Rudin из Duke.

В дополнение к основной конференции с множеством параллельных треков, есть 34 семинара, 29 уроков в виде лекций, 15 практических уроков и 3 тематических дня (День Земли, День глубокого обучения и День здоровья). Мне пришлось вручную выбрать несколько, которые имеют отношение к промышленным проблемам, которые мы решаем в PROS, а также случайным образом посетил некоторые другие сессии, которые могут помочь увеличить разнообразие. Так что это только мой взгляд на KDD, а не всесторонний обзор конференции этого года. Если вы не знаете, где искать, для начала можно использовать список для чтения.

Ключевые моменты

Неоправданная эффективность и сложность данных в здравоохранении, Питер Ли:

Https://www.youtube.com/watch?v=skqyBA1MxXQ

Существуют ли простые модели от Синтии Рудин:

Https://www.youtube.com/watch?v=wL4X4lG20sM

Руководство по прогнозированию больших временных рядов

Https://lovvge.github.io/Forecasting-Tutorial-KDD-2019/

Это руководство состоит из двух частей. В первой части дается хороший обзор классических методов, таких как обработка сигналов, AR для линейного прогнозирования и графики лагов для нелинейного прогнозирования. Вторая часть описывает использование глубокого обучения для временных рядов, таких как причинная свертка расширения, кодер-декодер, модели внимания и т. Д.

Пространственное и временное прогнозирование

Различные варианты кодировщика-декодера RNN для пространственно-временного прогнозирования:

Количественная оценка глубокой неопределенности: подход машинного обучения для прогнозирования погоды

AccuAir: лучшее решение для прогнозирования качества воздуха для KDD Cup 2018

Совместное прогнозирование нескольких транспортных потребностей на основе глубокой пространственно-временной нейронной сети

Обнаружение аномалии

Мне нравится идея из статьи Microsoft по обнаружению аномалий, в которой для обнаружения аномалий используется спектральный остаток, заимствованный из компьютерного зрения:

Служба обнаружения аномалий временных рядов в Microsoft

Обнаружение аномалий в системе ценообразования электронной коммерции

AutoML

Третий международный семинар по автоматизации в машинном обучении

Мне нравится доклад доктора Ся «Бен» Ху из Техасского A&M, чья лаборатория изобретает AutoKeras и AutoKaggle (которые будут выпущены!). Более подробное описание системы Авто-Керас Вы можете найти по адресу:

Auto-Keras: эффективная поисковая система по нейронной архитектуре

Практическое прогнозирование производительности глубокой нейронной сети для оптимизации гиперпараметров от Йошихико Одзаки, о том, как мы можем ускорить процесс настройки, преждевременно завершив итерацию с точным прогнозом кривой производительности!

Еще одна интересная статья об эффективной генерации перекрестных функций высокого порядка, которая значительно повышает производительность как линейных, так и глубоких моделей:

AutoCross: автоматическое пересечение функций для табличных данных в реальных приложениях

Мастер-класс по объяснению ИИ в промышленности

Были представлены такие алгоритмы, как LIME и его варианты, такие как xLIME, Anchors, SHAP, GAM, а также исследования реальных примеров использования.

Https://sites.google.com/view/kdd19-explainable-ai-tutorial

Некоторые интересные статьи по моделям интерпретации включают:

Аксиоматическая интерпретируемость мультиклассовых аддитивных моделей

Включение интерпретируемости в модели скрытых факторов с помощью анализа быстрого влияния

Офлайн и онлайн-оценка интерактивных систем

Http://evalworkshop.com/2nd/

Беспристрастная оценка для объективных рейтингов Торстена Иоахима (Корнельский университет)

Количественная оценка воздействия рекомендации Арден Дертат (Netflix)

Масштабируемые алгоритмы

Много усилий было потрачено на масштабирование часто используемых алгоритмов:

Масштабируемая иерархическая кластеризация с прививкой деревьев

TF-Ranking: масштабируемая библиотека TensorFlow для обучения ранжированию

AtSNE: эффективная и надежная визуализация на графическом процессоре за счет иерархической оптимизации

Масштабирование алгоритмов многорукого бандита

Масштабирование полиномиальной логистической регрессии с помощью гибридного параллелизма

Рекомендатель

В этом году на KDD были представлены тонны статей. Пытаюсь выбрать несколько репрезентативных. Ясно видно, что существует несколько тенденций рекомендательной системы, которые требуют динамических прогнозов в реальном времени и возможности использовать предварительные знания, такие как граф знаний.

MeLU: Оценщик предпочтений опытных пользователей для рекомендации холодного старта

Прогнозирование траектории динамического встраивания во временных сетях взаимодействия

DAML: взаимное обучение с двойным вниманием между оценками и обзорами рекомендаций по позициям

Улучшение совместной фильтрации с генеративным расширением

KGAT: Сеть знаний для рекомендаций

Двойная модель для рекомендательной системы, основанная на внимании в реальном времени

Мне еще предстоит раскопать очень длинный список сокровищ. Или вы можете откопать это сами на https://www.kdd.org/kdd2019/, где вы можете найти все подробности об учебных курсах, семинарах и статьях. Пожалуйста, прокомментируйте ниже любое интересное открытие!