Отчет о конференции CIKM 2018: знания, рекомендательные системы и отраслевые документы

В соавторстве с моим другом Джин Яо Чином

С 22 по 26 октября я присутствовал на 27-й Международной конференции ACM по управлению информацией и знаниями (CIKM) в Турине, Италия. CIKM — это главная конференция, посвященная исследованиям в области поиска информации, баз данных, управления знаниями и т. д. Основная тема этого года — От больших данных и большой информации к большим знаниям. Ввиду огромного количества доступных данных и вычислительных мощностей исследователи из академических кругов и промышленности заинтересованы в том, как преодолеть разрыв между данными и знаниями,чтобы ускорить развитие многих технологий искусственного интеллекта. Приложения.

Стратегически расположенный на пересечении исследований в области управления знаниями, информацией и данными, CIKM имеет уникальную возможность выделить технологии и идеи, которые материализуют видение будущего больших данных, большой информации и больших знаний. — http://www.cikm2018.units.it/#3rdPage

Общее впечатление

Горячие темы среди всех исследовательских работ: Системы рекомендаций, обучение и приложения сети знаний, качество данных (например, достоверность, конфиденциальность, интеграция и т. д.). Помимо классических задач (например,рекомендация фильма/продукта, классификация текстов, ранжирование и т. д.), предлагаются новые интересные задачи (например,понимание математического содержания, обобщение и профилирование событий и т. д. ).

С технической точки зрения модели, основанные на нейронных сетях/глубоком обучении, быстро совершенствуются, с ними широко экспериментируют почти во всех задачах. Для обучения таких моделей требуется большой объем размеченных данных, многие усилия направлены на полу-контролируемые, слабо контролируемые и даже неконтролируемые методы. Для этих целей исследуются косвенно связанные, не рассмотренные ранее или синтезированные сигналы. После успеха Generative Adversarial Network в приложениях Computer Vision в некоторых интересных работах используются adversarialфреймворки в рекомендациях (Chae et al., 2018; Krishnan et al., 2018), графовое обучение (Ding et al., 2018), прогноз популярности событий (Wu et al., 2018) и прогноз покрытия беспроводной сети (Li et al., 2018).

В этом сообщении блога я сосредоточусь только на некоторых темах в рекомендательных системах.

Рекомендательные системы

Я ранее изучал рекомендательные системы (RS) в начале своей докторской диссертации, поэтому я все еще интересуюсь последними разработками. В соответствии с последними тенденциями для RS в целом, большинство статей, представленных на CIKM в этом году, основаны на различных методах глубокого обучения. (Отличный обзор РС на основе глубокого обучения см. в следующем обзорном документе [ссылка], в соавторстве с моим руководителем).

В частности, новые идеи касались использования дополнительной информации, такой как обзоры, диаграммы знаний, гетерогенные информационные сети и т. д.. Например, Chin et al. (2018) предложили новый РС на основе аспектов для использования обзоров на уровне аспектов с использованием как нейронного внимания, так и механизма совместного внимания. Ву и др. (2018) продемонстрировали, как использовать вспомогательные обзоры, т. е. обзоры, написанные аналогичными пользователями, в качестве дополнительного источника информации для улучшения существующих СО, основанных на обзорах.

Кроме того, существует несколько RS, ориентированных на конкретные сценарии приложений с уникальными характеристиками. Чжан и др. (2018) экспериментировали с идеей диалогового поиска и рекомендаций, которые пытаются лучше фиксировать информационные потребности пользователей с помощью новой парадигмы Спрос пользователя — ответ системы. В работе (Wan et al., 2018) авторы сосредоточились на рекомендации продуктов для покупки продуктов. Интересно, что их подход рассматривает 2 типа товаров: (1) дополняющие товары, т. е. Клиенты, купившие этот товар, также купили Х, и (2) обязательные к покупке товары, т. е. определенные товары, которые покупают неоднократно. пользователем.

С переходом к цифровому образу жизни вполне вероятно, что рекомендательные системы станут незаменимыми в нашей повседневной жизни. Таким образом, мы считаем, что интерес к RS будет возрастать как со стороны академических кругов, так и со стороны промышленности. Новые идеи могут возникнуть в результате (1) использования информации из нескольких источников, (2) изучения более явного поведения пользователей и (3) выявления меняющихся информационных потребностей пользователей (Maarten de Rijke, 2018), например, различное представление результатов и оценки.

Отраслевые и тематические исследования

Трек программы предназначен для обмена интересными и существенными результатами внедрения интеллектуальных систем в реальных приложениях (например,новые приложения, технологии, инциденты). Здесь я выделяю некоторые документы, связанные с тем, над чем работают мои коллеги в SAP Leonardo ML.

Набор персонала

Исследователи из LinkedIn (Geyik et al., 2018) предлагают модель рекомендации кандидатов, которая учитывает немедленные отзывы пользователей и соответствующим образом обновляет рейтинг. Сначала он группирует профили-кандидаты по намерениям, а затем использует модель многорукого бандита для выбора кластера для каждого сеанса. В другом документе LinkedIn (Ramanath et al., 2018) представлено глубокое изучение репрезентации LinkedIn Recruiter с использованием информации, полученной от рекрутеров и ответов кандидатов в приложениях по поиску талантов.

В другой работе (Dave et al., 2018) была предложена модель обучения репрезентации для совместного обучения представлению профессий и навыков в скрытом пространстве. Модель рассматривает информацию из (1) сети смены работы, (2) сети работы и навыков и (3) сети совпадения навыков.

Финансы

В корпоративных финансах финансирование под дебиторскую задолженность – это услуга, позволяющая компании использовать неоплаченные счета, не оплаченные клиентами, для получения финансирования. Исследователи из UniCredit (Bordino and Gullo, 2018) представляют новую децентрализованную сетевую структуру расчетов с дебиторской задолженностью, в которой значительно снижаются как риск для спонсоров, так и затраты для клиентов.

Обслуживание клиентов

Наша статья (Han et al., 2018) в разделе Извлечение названий программных продуктов и их связывание из заявок на поддержку программного обеспечения была принята в разделе Отрасль и вариант использования. Во время моего исследования заявок в службу поддержки мы обнаружили, что названия программ очень неформальны и двусмысленны. Поэтому имеет смысл научить модель машинного обучения извлекать слова и фразы, а затем связывать их с записями в предопределенном каталоге. Мы многому научились в процессе аннотирования данных, изучения различных функций и сравнения с исходными нейронными линиями.

Также в И.Т. бизнес-сенарио службы поддержки, Патидар и др. предложили решение для автоматической диалоговой службы поддержки. Одна часть — это модель глубокого обучения для иерархической классификации заявок. Другой использует модель заполнения слотов для обработки исходных пользовательских запросов и предложения вопросов пользователю, чтобы улучшить качество исходного описания проблемы.

Резюме

В этом посте я поделился тем, что было для меня интересно и чем стоит поделиться с CIKM 2018. Однако он охватывает только ~1% того, что на самом деле произошло во время конференции (#статьи, процитированные в блоге/#все статьи приняты). Публикации теперь индексируются в Google Scholar и DBLP, пожалуйста, прочтите и при необходимости цитируйте оригинальные статьи.

Мне всегда нравится посещать конференции, встречаться с исследователями с интересным опытом и обсуждать идеи и возможности сотрудничества.