Публикации по теме 'sklearn'


Доноры выбирают проверку приложений — логистическая регрессия TFIDF для начинающих, день 2
Поэтому ранее я настроил базовую функцию логистической регрессии, чтобы предсказать, будет ли проект одобрен для финансирования. Я достиг коэффициента ошибок 12%. Неплохо, я постараюсь улучшить это сегодня. Во-первых, я рассмотрю алгоритм более подробно, чтобы получить некоторое представление. Логистическая регрессия обычно используется для построения дискретного классификатора, поскольку его выходные данные ограничены диапазоном от 0 до 1. В нашем случае X, которые мы передаем,..

Хубер-регрессор sklearn лучше линейной регрессии?
Последние два дня я работал над концепцией машинного обучения, но не смог продвинуться вперед, потому что для этого требовалось больше памяти, чем мог вместить мой крошечный компьютер и бесплатная версия Google Colab. Поскольку я был на распутье в своей деятельности по машинному обучению, я решил попробовать другую похожую модель, HuberRegressor. HuberRegressor от Scikit-learn — это модель линейной регрессии, которая сочетает в себе лучшие атрибуты регрессии с использованием метода..

Перемешайте набор данных, чтобы повысить точность прогнозов
Я заметил, что были случаи, когда данные в наборе данных носят упорядоченный характер, что может привести к уменьшению любых прогнозов, сделанных в наборе данных. Поэтому всякий раз, когда я сталкиваюсь с набором данных, который кажется мне подготовленным в определенном порядке, я перетасовываю его. Я обнаружил, что перетасовка набора данных может повысить точность, поэтому, если прогнозируемая точность набора данных низка, всегда стоит перетасовывать данные в начале программы, чтобы..

Рекомендации по настройке гиперпараметров случайного леса
1. Введение 1.1 Эта статья для вас, если вы хотите: Поймите, какие гиперпараметры нужно настроить в Random Forest, и интуицию, стоящую за ними. Поймите, какая стратегия настройки является лучшей для каждого из них. Иметь предварительные знания о случайном лесу 2 Основные характеристики Random Forest для настройки 2.1 Обзор Random Forest имеет несколько гиперпараметров, но в целом они относятся к 3 основным характеристикам — количеству деревьев, глубине дерева и..

Правильная балансировка для перекрестной проверки
Кто не сталкивался с необходимостью применять метод перекрестной проверки, в то время как набор данных несбалансирован в отношении количества экземпляров на значение целевого класса. Вопрос в том, правильно ли мы его применяем? Цель этой статьи - показать способ использования методов балансировки при перекрестной проверке без принудительной балансировки складок теста CV; таким образом, чтобы получить более реалистичные результаты оценки резюме. Один обычно разбивает свои..

Как найти и удалить выбросы из регрессии в Python
Я изучаю машинное обучение последние несколько недель и пришел к уроку, на котором изучаются выбросы. По словам профессионалов в области науки о данных, один из способов повысить точность - это выявить выбросы, а затем удалить их из набора данных. Выявление выбросов пригодится при поиске мошенничества. Поскольку выбросы потенциально могут влиять на точность набора данных при прогнозировании, я решил написать сообщение в блоге на эту тему. В главной библиотеке машинного обучения..

Очистите свой разум ясным луком
clearly macIszPYxw.png' /> Что и почему Машинное обучение сложно; модели должны быть ограничены, данные должны быть собраны, помечены (и отлажены) и дорогостоящее оборудование должно быть настроено. Весь процесс необходимо повторять в обычном ритме, как только все будет запущено и запущено. Другими словами, успешное выполнение одной итерации жизненного цикла машинного обучения может повлечь за собой много технических накладных расходов и сложностей. Часто эта сложность вытесняет..