Ансамблевое обучение при обучении без учителя

У меня вопрос относительно современной литературы по ансамблевому обучению (в частности, по обучению без учителя).

Что я читал в литературе, ансамблевое обучение в применении к неконтролируемому обучению в основном сводится к задачам кластеризации. Однако, если у меня есть x неконтролируемых методов, которые выводят оценку (аналогично задаче регрессии), существует ли подход, который может объединить эти результаты в один?


person Miguel Sandim    schedule 20.03.2017    source источник
comment
Также существуют ансамбли обнаружения выбросов.   -  person Has QUIT--Anony-Mousse    schedule 20.03.2017
comment
Точно! Это то, что я искал. Дело в том, что методы ансамблевого обучения для неконтролируемого обнаружения аномалий на самом деле не являются ансамблевыми алгоритмами. Согласно литературным данным, они просто нормализуют оценку нескольких методов обнаружения аномалий (в вероятность, используя статистические методы) и объединяют их, используя простые функции, такие как усреднение. Мой вопрос заключался в том, можно ли выйти за рамки этого, и есть ли примеры алгоритмов ансамблевого обучения, которые не требуют применения помеченных данных (например, для голосования не требуются помеченные данные).   -  person Miguel Sandim    schedule 20.03.2017
comment
Некоторые тоже делают обрезку, чтобы выбрать детекторы. Чего вам не хватает для настоящего ансамбля?   -  person Has QUIT--Anony-Mousse    schedule 21.03.2017
comment
@ Anony-Mousse, можешь прислать мне литературу об этих моделях для обрезки?   -  person Miguel Sandim    schedule 21.03.2017
comment
Попробуйте выполнить «резкое сокращение ансамбля» в Google Scholar. Я не помню всех подробностей, но Zimek - это имя, на которое стоит обратить внимание.   -  person Has QUIT--Anony-Mousse    schedule 21.03.2017
comment
Я думаю, что это ссылка, о которой я думал: Шуберт, Э., Войдановски, Р., Зимек, А., и Кригель, Х. П. (2012, апрель). Об оценке резко отклоняющихся рейтингов и оценок выбросов. В материалах Международной конференции SIAM 2012 по интеллектуальному анализу данных (стр. 1047-1058). Общество промышленной и прикладной математики.   -  person Has QUIT--Anony-Mousse    schedule 21.03.2017
comment
Также проверьте цитаты из этой статьи об ученом, например Чан, Элвин и И-Рен Йе. Ансамбли обнаружения аномалий: В защиту среднего. Веб-аналитика и технология интеллектуальных агентов (WI-IAT), Международная конференция IEEE / WIC / ACM, 2015 г., посвященная. Vol. 3. IEEE, 2015. Но я считаю, что документы SIAM являются центральными.   -  person Has QUIT--Anony-Mousse    schedule 21.03.2017


Ответы (1)


Об оценке резко отклоняющихся оценок и оценок выбросов.
Шуберт, Э., Войдановски, Р., Зимек, А., и Кригель, HP (2012 г., апрель).
В Материалы Международной конференции SIAM 2012 по интеллектуальному анализу данных (стр. 1047-1058). Общество промышленной и прикладной математики.

В этой публикации мы не просто нормализуем показатели выбросов, но также предлагаем стратегию неконтролируемого выбора членов ансамбля, которая называется «жадный ансамбль».

Однако нормализация крайне важна и трудна. Мы опубликовали некоторые из более ранних достижений в отношении нормализации баллов в виде

Интерпретация и объединение оценок выбросов.
Kriegel, HP, Kroger, P., Schubert, E., & Zimek, A. (2011, апрель).
In Proceedings of the 2011 Международная конференция SIAM по интеллектуальному анализу данных (стр. 13-24). Общество промышленной и прикладной математики.

Если вы не нормализуете свои оценки (а масштабирования min-max недостаточно), вы, как правило, не сможете объединить их значимым образом, за исключением очень сильных предварительных условий. Даже два разных подпространства обычно дают несравнимые значения из-за разного количества функций и разных масштабов функций.

Есть также некоторые работы над полууправляемыми ансамблями, например

Коллективы с отклоняющимися от курса обучения: лучшее из обоих миров - под наблюдением и без присмотра.
Миченкова Б., Мак-Вильямс Б., & Assent I. (2014).
In Proceedings семинара ACM SIGKDD 2014 по обнаружению и описанию выбросов в условиях разнообразия данных (ODD2). Нью-Йорк, штат Нью-Йорк, США (стр. 51-54).

Также остерегайтесь переобучения. Достаточно легко добиться единственного хорошего результата, настроив параметры и повторив оценку. Но это приводит к утечке оценочной информации в ваш эксперимент, то есть вы склонны переобучать. очень сложно добиться хороших результатов по широкому диапазону параметров и наборов данных. Одно из ключевых наблюдений следующего исследования заключалось в том, что для каждого алгоритма вы найдете по крайней мере один набор данных и набор параметров, где он «превосходит» другие; но если вы немного измените параметры или используете другой набор данных, преимущества «превосходных» новых методов не будут воспроизводиться.

Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование.
Кампос, Г.О., Зимек, А., Сандер, Дж., Кампелло, Р.Дж., Миченкова, Б. , Schubert, E., ... & Houle, ME (2016).
Data Mining and Knowledge Discovery, 30 (4), 891-927.

Так что вам придется очень много работать, чтобы сделать надежную оценку. Будьте внимательны при выборе параметров.

person Erich Schubert    schedule 03.04.2017