Публикации по теме 'random-forest'


Методы ансамбля в машинном обучении  — Часть 1 (Бэггинг)
Ансамбль означает использование комбинации различных базовых обучающихся или моделей, то есть при прогнозировании чего-либо мы можем использовать более 1 модели последовательно или параллельно. Методы ансамбля состоят из двух частей — бэггинга и бустинга. Бэггинг (агрегация Bootstrap) Агрегация пакетов или Bootstrap — это метод ансамбля, в котором базовые учащиеся располагаются параллельно, и он следует принципу, называемому выборкой строк с заменой, чтобы распределить записи данных..

Введение в методы ансамбля Scikit-learn
Привет! Мы все готовы узнать что-нибудь о методах ансамбля ?! Ха-ха-ха! Мы уверены! Что ж, я предполагаю, что вы, ребята, имеете некоторый фон или предварительные знания в области базовой классификации интеллектуального анализа данных, алгоритмов кластеризации и регрессии, таких как наивный байесовский метод, деревья решений, KNN, K-средние и т. Д. Итак, без лишних слов, приступим к делу. Методы ансамбля говорят об объединении прогнозов из нескольких «базовых оценок». Теперь этот..

Классификатор случайного леса с несбалансированными данными
Недавно я завершил проект, используя набор данных из Накачать: добыча грунтовых вод от DRIVENDATA . Я собираюсь пройтись по классификатору случайного леса, одному из тестированных мной классификаторов, который, как я обнаружил, показал наилучшие результаты после настройки его гиперпараметров. Я не буду здесь вдаваться в подробности, но перед тем, как данные будут готовы для модели, необходимо выполнить значительный объем очистки данных и выбора функций. Существует много отсутствующих..

Обнаружение мошенничества в электронной коммерции
Можно ли построить модель, выявляющую мошенничество на основе одной транзакции? Это мой шанс! Первый шаг: исследование данных Учитывая 150 тысяч транзакций, помеченных как мошеннические или нет, я заметил, что распределение большинства качественных характеристик (браузер, источник, пол пользователя, возраст пользователя) было одинаковым как для мошеннических, так и для законных транзакций. Однако время регистрации (когда пользователь создал учетную запись) и время покупки (первая..

Случайные леса - ансамбль деревьев решений
Вот как деревья решений объединяются для создания случайного леса Случайный лес - один из самых мощных алгоритмов машинного обучения, доступных сегодня. Это контролируемый алгоритм машинного обучения, который можно использовать как для классификации (прогнозирует дискретные выходные данные, т. Е. Для класса), так и для регрессии ( прогнозирует непрерывный результат) задач. В этой статье я описываю, как это можно использовать для задачи классификации с популярным набором..

Распознавание человеческой деятельности с использованием машинного обучения
Распознавание деятельности человека — это задача классификации последовательностей данных акселерометра и гироскопа, записанных специальными ремнями безопасности или смартфонами, в известные четко определенные движения. Необработанные данные недоступны. Вместо этого была доступна предварительно обработанная версия набора данных. Этапы предварительной обработки включали: Предварительная обработка акселерометра и гироскопа с помощью шумовых фильтров. Разделение данных на фиксированные..

Сердце тьмы: логистическая регрессия против случайного леса
Прошло 9 недель с тех пор, как я начал изучать науку о данных в Lambda School. Задача на этой неделе включает в себя задачу классификации на несколько классов, представленную как соревнование Kaggle, в котором участвуют только ученики нашего класса: DS-1. Наша задача - предсказать, какие водяные насосы в Танзании неисправны, с помощью комбинации числовых и категориальных переменных: Танзанийский вызов водным точкам: Целевая переменная: «status_group» Функциональный 2...