Благодаря PROS моего работодателя (NYSE: PRO, https://pros.com/) у меня появилась возможность снова посетить KDD в этом году. Мой первый опыт KDD был в 2014 году, когда я был аспирантом, который достиг 5-го места в кубке KDD вместе с тремя другими классными Kagglers. В то время я больше интересовался кластеризацией, визуализацией данных и выбором функций, которые тесно связаны с моей диссертацией. После работы в промышленности я переключаюсь на прогнозирование временных рядов, рекомендации, объяснимый ИИ и т. Д. Действительно интересно наблюдать, как KDD развивается в течение этих лет. В 2014 году глубокое обучение не было такой актуальной темой, как сейчас, и не получило такого широкого применения. Сегодня было разработано так много вариантов архитектур глубокого обучения, которые показали многообещающие современные результаты для различных задач. Я рад видеть, что KDD сохраняет разнообразие тем и вдохновляет исследователей данных и практиков на поиск простых моделей, как это было предложено в лейтмотиве Существует ли простая модель? пользователя Cynthia Rudin из Duke.
В дополнение к основной конференции с множеством параллельных треков, есть 34 семинара, 29 уроков в виде лекций, 15 практических уроков и 3 тематических дня (День Земли, День глубокого обучения и День здоровья). Мне пришлось вручную выбрать несколько, которые имеют отношение к промышленным проблемам, которые мы решаем в PROS, а также случайным образом посетил некоторые другие сессии, которые могут помочь увеличить разнообразие. Так что это только мой взгляд на KDD, а не всесторонний обзор конференции этого года. Если вы не знаете, где искать, для начала можно использовать список для чтения.
Ключевые моменты
Неоправданная эффективность и сложность данных в здравоохранении, Питер Ли:
Https://www.youtube.com/watch?v=skqyBA1MxXQ
Существуют ли простые модели от Синтии Рудин:
Https://www.youtube.com/watch?v=wL4X4lG20sM
Руководство по прогнозированию больших временных рядов
Https://lovvge.github.io/Forecasting-Tutorial-KDD-2019/
Это руководство состоит из двух частей. В первой части дается хороший обзор классических методов, таких как обработка сигналов, AR для линейного прогнозирования и графики лагов для нелинейного прогнозирования. Вторая часть описывает использование глубокого обучения для временных рядов, таких как причинная свертка расширения, кодер-декодер, модели внимания и т. Д.
Пространственное и временное прогнозирование
Различные варианты кодировщика-декодера RNN для пространственно-временного прогнозирования:
AccuAir: лучшее решение для прогнозирования качества воздуха для KDD Cup 2018
Обнаружение аномалии
Мне нравится идея из статьи Microsoft по обнаружению аномалий, в которой для обнаружения аномалий используется спектральный остаток, заимствованный из компьютерного зрения:
Служба обнаружения аномалий временных рядов в Microsoft
Обнаружение аномалий в системе ценообразования электронной коммерции
AutoML
Третий международный семинар по автоматизации в машинном обучении
Мне нравится доклад доктора Ся «Бен» Ху из Техасского A&M, чья лаборатория изобретает AutoKeras и AutoKaggle (которые будут выпущены!). Более подробное описание системы Авто-Керас Вы можете найти по адресу:
Auto-Keras: эффективная поисковая система по нейронной архитектуре
Практическое прогнозирование производительности глубокой нейронной сети для оптимизации гиперпараметров от Йошихико Одзаки, о том, как мы можем ускорить процесс настройки, преждевременно завершив итерацию с точным прогнозом кривой производительности!
Еще одна интересная статья об эффективной генерации перекрестных функций высокого порядка, которая значительно повышает производительность как линейных, так и глубоких моделей:
AutoCross: автоматическое пересечение функций для табличных данных в реальных приложениях
Мастер-класс по объяснению ИИ в промышленности
Были представлены такие алгоритмы, как LIME и его варианты, такие как xLIME, Anchors, SHAP, GAM, а также исследования реальных примеров использования.
Https://sites.google.com/view/kdd19-explainable-ai-tutorial
Некоторые интересные статьи по моделям интерпретации включают:
Аксиоматическая интерпретируемость мультиклассовых аддитивных моделей
Включение интерпретируемости в модели скрытых факторов с помощью анализа быстрого влияния
Офлайн и онлайн-оценка интерактивных систем
Беспристрастная оценка для объективных рейтингов Торстена Иоахима (Корнельский университет)
Количественная оценка воздействия рекомендации Арден Дертат (Netflix)
Масштабируемые алгоритмы
Много усилий было потрачено на масштабирование часто используемых алгоритмов:
Масштабируемая иерархическая кластеризация с прививкой деревьев
TF-Ranking: масштабируемая библиотека TensorFlow для обучения ранжированию
Масштабирование алгоритмов многорукого бандита
Масштабирование полиномиальной логистической регрессии с помощью гибридного параллелизма
Рекомендатель
В этом году на KDD были представлены тонны статей. Пытаюсь выбрать несколько репрезентативных. Ясно видно, что существует несколько тенденций рекомендательной системы, которые требуют динамических прогнозов в реальном времени и возможности использовать предварительные знания, такие как граф знаний.
MeLU: Оценщик предпочтений опытных пользователей для рекомендации холодного старта
Прогнозирование траектории динамического встраивания во временных сетях взаимодействия
DAML: взаимное обучение с двойным вниманием между оценками и обзорами рекомендаций по позициям
Улучшение совместной фильтрации с генеративным расширением
KGAT: Сеть знаний для рекомендаций
Двойная модель для рекомендательной системы, основанная на внимании в реальном времени
Мне еще предстоит раскопать очень длинный список сокровищ. Или вы можете откопать это сами на https://www.kdd.org/kdd2019/, где вы можете найти все подробности об учебных курсах, семинарах и статьях. Пожалуйста, прокомментируйте ниже любое интересное открытие!