Об оценке резко отклоняющихся оценок и оценок выбросов.
Шуберт, Э., Войдановски, Р., Зимек, А., и Кригель, HP (2012 г., апрель).
В Материалы Международной конференции SIAM 2012 по интеллектуальному анализу данных (стр. 1047-1058). Общество промышленной и прикладной математики.
В этой публикации мы не просто нормализуем показатели выбросов, но также предлагаем стратегию неконтролируемого выбора членов ансамбля, которая называется «жадный ансамбль».
Однако нормализация крайне важна и трудна. Мы опубликовали некоторые из более ранних достижений в отношении нормализации баллов в виде
Интерпретация и объединение оценок выбросов.
Kriegel, HP, Kroger, P., Schubert, E., & Zimek, A. (2011, апрель).
In Proceedings of the 2011 Международная конференция SIAM по интеллектуальному анализу данных (стр. 13-24). Общество промышленной и прикладной математики.
Если вы не нормализуете свои оценки (а масштабирования min-max недостаточно), вы, как правило, не сможете объединить их значимым образом, за исключением очень сильных предварительных условий. Даже два разных подпространства обычно дают несравнимые значения из-за разного количества функций и разных масштабов функций.
Есть также некоторые работы над полууправляемыми ансамблями, например
Коллективы с отклоняющимися от курса обучения: лучшее из обоих миров - под наблюдением и без присмотра.
Миченкова Б., Мак-Вильямс Б., & Assent I. (2014).
In Proceedings семинара ACM SIGKDD 2014 по обнаружению и описанию выбросов в условиях разнообразия данных (ODD2). Нью-Йорк, штат Нью-Йорк, США (стр. 51-54).
Также остерегайтесь переобучения. Достаточно легко добиться единственного хорошего результата, настроив параметры и повторив оценку. Но это приводит к утечке оценочной информации в ваш эксперимент, то есть вы склонны переобучать. очень сложно добиться хороших результатов по широкому диапазону параметров и наборов данных. Одно из ключевых наблюдений следующего исследования заключалось в том, что для каждого алгоритма вы найдете по крайней мере один набор данных и набор параметров, где он «превосходит» другие; но если вы немного измените параметры или используете другой набор данных, преимущества «превосходных» новых методов не будут воспроизводиться.
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование.
Кампос, Г.О., Зимек, А., Сандер, Дж., Кампелло, Р.Дж., Миченкова, Б. , Schubert, E., ... & Houle, ME (2016).
Data Mining and Knowledge Discovery, 30 (4), 891-927.
Так что вам придется очень много работать, чтобы сделать надежную оценку. Будьте внимательны при выборе параметров.
person
Erich Schubert
schedule
03.04.2017