Публикации по теме 'sklearn'
Доноры выбирают проверку приложений — логистическая регрессия TFIDF для начинающих, день 2
Поэтому ранее я настроил базовую функцию логистической регрессии, чтобы предсказать, будет ли проект одобрен для финансирования. Я достиг коэффициента ошибок 12%. Неплохо, я постараюсь улучшить это сегодня. Во-первых, я рассмотрю алгоритм более подробно, чтобы получить некоторое представление.
Логистическая регрессия обычно используется для построения дискретного классификатора, поскольку его выходные данные ограничены диапазоном от 0 до 1.
В нашем случае X, которые мы передаем,..
Хубер-регрессор sklearn лучше линейной регрессии?
Последние два дня я работал над концепцией машинного обучения, но не смог продвинуться вперед, потому что для этого требовалось больше памяти, чем мог вместить мой крошечный компьютер и бесплатная версия Google Colab. Поскольку я был на распутье в своей деятельности по машинному обучению, я решил попробовать другую похожую модель, HuberRegressor.
HuberRegressor от Scikit-learn — это модель линейной регрессии, которая сочетает в себе лучшие атрибуты регрессии с использованием метода..
Перемешайте набор данных, чтобы повысить точность прогнозов
Я заметил, что были случаи, когда данные в наборе данных носят упорядоченный характер, что может привести к уменьшению любых прогнозов, сделанных в наборе данных. Поэтому всякий раз, когда я сталкиваюсь с набором данных, который кажется мне подготовленным в определенном порядке, я перетасовываю его.
Я обнаружил, что перетасовка набора данных может повысить точность, поэтому, если прогнозируемая точность набора данных низка, всегда стоит перетасовывать данные в начале программы, чтобы..
Рекомендации по настройке гиперпараметров случайного леса
1. Введение
1.1 Эта статья для вас, если вы хотите:
Поймите, какие гиперпараметры нужно настроить в Random Forest, и интуицию, стоящую за ними. Поймите, какая стратегия настройки является лучшей для каждого из них. Иметь предварительные знания о случайном лесу
2 Основные характеристики Random Forest для настройки
2.1 Обзор
Random Forest имеет несколько гиперпараметров, но в целом они относятся к 3 основным характеристикам — количеству деревьев, глубине дерева и..
Правильная балансировка для перекрестной проверки
Кто не сталкивался с необходимостью применять метод перекрестной проверки, в то время как набор данных несбалансирован в отношении количества экземпляров на значение целевого класса.
Вопрос в том, правильно ли мы его применяем?
Цель этой статьи - показать способ использования методов балансировки при перекрестной проверке без принудительной балансировки складок теста CV; таким образом, чтобы получить более реалистичные результаты оценки резюме.
Один обычно разбивает свои..
Как найти и удалить выбросы из регрессии в Python
Я изучаю машинное обучение последние несколько недель и пришел к уроку, на котором изучаются выбросы. По словам профессионалов в области науки о данных, один из способов повысить точность - это выявить выбросы, а затем удалить их из набора данных. Выявление выбросов пригодится при поиске мошенничества. Поскольку выбросы потенциально могут влиять на точность набора данных при прогнозировании, я решил написать сообщение в блоге на эту тему.
В главной библиотеке машинного обучения..
Очистите свой разум ясным луком
clearly macIszPYxw.png' />
Что и почему
Машинное обучение сложно; модели должны быть ограничены, данные должны быть собраны, помечены (и отлажены) и дорогостоящее оборудование должно быть настроено. Весь процесс необходимо повторять в обычном ритме, как только все будет запущено и запущено. Другими словами, успешное выполнение одной итерации жизненного цикла машинного обучения может повлечь за собой много технических накладных расходов и сложностей.
Часто эта сложность вытесняет..