Публикации по теме 'data-mining'
Неконтролируемое машинное обучение: интуитивное понимание кластерного анализа
Что такое кластерный анализ
Кластерный анализ — это форма исследовательского анализа данных, в которой наблюдения делятся на разные группы, имеющие общие характеристики. Другими словами, поиск сходства между данными по характеристикам, обнаруженным в данных, и группировка похожих объектов данных в кластеры.
Это метод обучения без учителя и метод поиска закономерностей для извлечения вдохновения из данных.
Основными подходами к кластеризации являются подход с разделением, который..
Введение в интеллектуальный анализ данных - предварительная обработка данных
Предварительная обработка данных имеет решающее значение в любом процессе интеллектуального анализа данных, поскольку они напрямую влияют на успешность проекта. Это снижает сложность анализируемых данных, поскольку данные в реальном мире нечистые.
Считается, что данные нечистые, если в них отсутствуют атрибуты, значения атрибутов, есть шум или выбросы, а также повторяющиеся или неправильные данные. Присутствие любого из них ухудшит качество результатов.
Вот несколько важных методов..
Древовидные методы: классификация
В основе статьи лежит задача классификации по алгоритму дерева решений, которая используется чаще. В нем рассказывается о различных методах разделения узла, а также о повышении производительности модели с помощью различных методов.
Дерево классификации очень похоже на дерево регрессии, за исключением того, что выходные данные являются качественными, а не количественными. Напомним, что в настройке регрессии прогнозируемый ответ для наблюдения задается средним ответом обучающих..
Пример алгоритма иерархической кластеризации на Python
Иерархическая кластеризация использует подход поиска групп в данных, так что экземпляры больше похожи друг на друга, чем на наблюдения в разных группах. Эта мера сходства обычно представляет собой евклидово расстояние между точками данных, но также могут использоваться Citi-block и геодезические расстояния.
Данные разбиты на кластеры в иерархическом порядке. Количество кластеров равно 0 вверху и максимуму внизу. Из этой иерархии выбирается оптимальное количество кластеров.
Существует..