Публикации по теме 'data-mining'


Неконтролируемое машинное обучение: интуитивное понимание кластерного анализа
Что такое кластерный анализ Кластерный анализ — это форма исследовательского анализа данных, в которой наблюдения делятся на разные группы, имеющие общие характеристики. Другими словами, поиск сходства между данными по характеристикам, обнаруженным в данных, и группировка похожих объектов данных в кластеры. Это метод обучения без учителя и метод поиска закономерностей для извлечения вдохновения из данных. Основными подходами к кластеризации являются подход с разделением, который..

Введение в интеллектуальный анализ данных - предварительная обработка данных
Предварительная обработка данных имеет решающее значение в любом процессе интеллектуального анализа данных, поскольку они напрямую влияют на успешность проекта. Это снижает сложность анализируемых данных, поскольку данные в реальном мире нечистые. Считается, что данные нечистые, если в них отсутствуют атрибуты, значения атрибутов, есть шум или выбросы, а также повторяющиеся или неправильные данные. Присутствие любого из них ухудшит качество результатов. Вот несколько важных методов..

Древовидные методы: классификация
В основе статьи лежит задача классификации по алгоритму дерева решений, которая используется чаще. В нем рассказывается о различных методах разделения узла, а также о повышении производительности модели с помощью различных методов. Дерево классификации очень похоже на дерево регрессии, за исключением того, что выходные данные являются качественными, а не количественными. Напомним, что в настройке регрессии прогнозируемый ответ для наблюдения задается средним ответом обучающих..

Пример алгоритма иерархической кластеризации на Python
Иерархическая кластеризация использует подход поиска групп в данных, так что экземпляры больше похожи друг на друга, чем на наблюдения в разных группах. Эта мера сходства обычно представляет собой евклидово расстояние между точками данных, но также могут использоваться Citi-block и геодезические расстояния. Данные разбиты на кластеры в иерархическом порядке. Количество кластеров равно 0 вверху и максимуму внизу. Из этой иерархии выбирается оптимальное количество кластеров. Существует..