Ансамблевое обучение при обучении без учителя

У меня вопрос относительно современной литературы по ансамблевому обучению (в частности, по обучению без учителя).

Что я читал в литературе, ансамблевое обучение в применении к неконтролируемому обучению в основном сводится к задачам кластеризации. Однако, если у меня есть x неконтролируемых методов, которые выводят оценку (аналогично задаче регрессии), существует ли подход, который может объединить эти результаты в один?

Miguel Sandim 20.03.2017 источник

comment

Также существуют ансамбли обнаружения выбросов. - Has QUIT--Anony-Mousse 20.03.2017

comment

Точно! Это то, что я искал. Дело в том, что методы ансамблевого обучения для неконтролируемого обнаружения аномалий на самом деле не являются ансамблевыми алгоритмами. Согласно литературным данным, они просто нормализуют оценку нескольких методов обнаружения аномалий (в вероятность, используя статистические методы) и объединяют их, используя простые функции, такие как усреднение. Мой вопрос заключался в том, можно ли выйти за рамки этого, и есть ли примеры алгоритмов ансамблевого обучения, которые не требуют применения помеченных данных (например, для голосования не требуются помеченные данные). - Miguel Sandim 20.03.2017

comment

Некоторые тоже делают обрезку, чтобы выбрать детекторы. Чего вам не хватает для настоящего ансамбля? - Has QUIT--Anony-Mousse 21.03.2017

comment

@ Anony-Mousse, можешь прислать мне литературу об этих моделях для обрезки? - Miguel Sandim 21.03.2017

comment

Попробуйте выполнить «резкое сокращение ансамбля» в Google Scholar. Я не помню всех подробностей, но Zimek - это имя, на которое стоит обратить внимание. - Has QUIT--Anony-Mousse 21.03.2017

comment

Я думаю, что это ссылка, о которой я думал: Шуберт, Э., Войдановски, Р., Зимек, А., и Кригель, Х. П. (2012, апрель). Об оценке резко отклоняющихся рейтингов и оценок выбросов. В материалах Международной конференции SIAM 2012 по интеллектуальному анализу данных (стр. 1047-1058). Общество промышленной и прикладной математики. - Has QUIT--Anony-Mousse 21.03.2017

comment

Также проверьте цитаты из этой статьи об ученом, например Чан, Элвин и И-Рен Йе. Ансамбли обнаружения аномалий: В защиту среднего. Веб-аналитика и технология интеллектуальных агентов (WI-IAT), Международная конференция IEEE / WIC / ACM, 2015 г., посвященная. Vol. 3. IEEE, 2015. Но я считаю, что документы SIAM являются центральными. - Has QUIT--Anony-Mousse 21.03.2017

Ответы (1)

arrow_upward
3
arrow_downward

Об оценке резко отклоняющихся оценок и оценок выбросов.
Шуберт, Э., Войдановски, Р., Зимек, А., и Кригель, HP (2012 г., апрель).
В Материалы Международной конференции SIAM 2012 по интеллектуальному анализу данных (стр. 1047-1058). Общество промышленной и прикладной математики.

В этой публикации мы не просто нормализуем показатели выбросов, но также предлагаем стратегию неконтролируемого выбора членов ансамбля, которая называется «жадный ансамбль».

Однако нормализация крайне важна и трудна. Мы опубликовали некоторые из более ранних достижений в отношении нормализации баллов в виде

Интерпретация и объединение оценок выбросов.
Kriegel, HP, Kroger, P., Schubert, E., & Zimek, A. (2011, апрель).
In Proceedings of the 2011 Международная конференция SIAM по интеллектуальному анализу данных (стр. 13-24). Общество промышленной и прикладной математики.

Если вы не нормализуете свои оценки (а масштабирования min-max недостаточно), вы, как правило, не сможете объединить их значимым образом, за исключением очень сильных предварительных условий. Даже два разных подпространства обычно дают несравнимые значения из-за разного количества функций и разных масштабов функций.

Есть также некоторые работы над полууправляемыми ансамблями, например

Коллективы с отклоняющимися от курса обучения: лучшее из обоих миров - под наблюдением и без присмотра.
Миченкова Б., Мак-Вильямс Б., & Assent I. (2014).
In Proceedings семинара ACM SIGKDD 2014 по обнаружению и описанию выбросов в условиях разнообразия данных (ODD2). Нью-Йорк, штат Нью-Йорк, США (стр. 51-54).

Также остерегайтесь переобучения. Достаточно легко добиться единственного хорошего результата, настроив параметры и повторив оценку. Но это приводит к утечке оценочной информации в ваш эксперимент, то есть вы склонны переобучать. очень сложно добиться хороших результатов по широкому диапазону параметров и наборов данных. Одно из ключевых наблюдений следующего исследования заключалось в том, что для каждого алгоритма вы найдете по крайней мере один набор данных и набор параметров, где он «превосходит» другие; но если вы немного измените параметры или используете другой набор данных, преимущества «превосходных» новых методов не будут воспроизводиться.

Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование.
Кампос, Г.О., Зимек, А., Сандер, Дж., Кампелло, Р.Дж., Миченкова, Б. , Schubert, E., ... & Houle, ME (2016).
Data Mining and Knowledge Discovery, 30 (4), 891-927.

Так что вам придется очень много работать, чтобы сделать надежную оценку. Будьте внимательны при выборе параметров.

Erich Schubert 03.04.2017

Ансамблевое обучение при обучении без учителя

Ответы (1)

Вопросы по теме