Публикации по теме 'scikit-learn'


K-означает кластеризацию с помощью Python
В этой статье мы разберемся с основами кластеризации K Mean и реализуем ее на Python, используя знаменитую библиотеку машинного обучения Scikit-learn. Что такое кластеризация K-средств? Кластеризация K-средств - это алгоритм машинного обучения без учителя . Он принимает смешанные данные и делит данные на небольшие группы / кластеры на основе шаблонов в данные . Цель алгоритма K средних AudreyBu однажды сказал: Цель K-средних проста: сгруппировать похожие точки..

Что, черт возьми, такое auto-sklearn?
В этой статье используются python, pandas и sci kit learn. Пожалуй, лучше всего они говорят об этом на своем сайте : Auto-sklearn освобождает пользователя машинного обучения от выбора алгоритма и настройки гиперпараметров. Он использует недавние преимущества в байесовской оптимизации, метаобучении и построении ансамблей. Если вам это не нравится, имейте в виду, что он также обрабатывает предварительную обработку данных: фиктивная кодировка (функции должны быть типа category , а не..

Моделирование со скрытым распределением Дирихле
В эпоху современного Интернета и социальных сетей мнения, обзоры и рекомендации людей стали ценным ресурсом для политологии и бизнеса. Благодаря современным технологиям мы теперь можем наиболее эффективно собирать и анализировать такие данные. Мы углубимся в анализ настроений и узнаем, как использовать тематическое моделирование, чтобы разделить обзоры фильмов на разные категории. Мы собираемся работать с набором данных из 50 000 обзоров фильмов из Интернет- базы данных фильмов..

Выбор функций в Python
Машинное обучение , Программирование Выбор функций в Python Практический пример того, как можно выбрать самые важные функции Мы предоставим пошаговый пример того, как вы можете выбрать наиболее важные функции. В этом примере мы будем работать с проблемой классификации, но ее можно распространить и на случаи регрессии, настроив параметры функции. Будем работать с датасетом рак груди . Давайте начнем: import pandas as pd import numpy as np from scipy import stats from..

Реализация пользовательских GridSearchCV и RandomSearchCV без scikit-learn
Полный код в Kaggle и Github Мое видео на YouTube Объяснение кросс-валидации K-Fold с помощью диаграммы Мое видео на YouTube Реализация GridSearchCV с нуля без использования Sckit-Learn Scikit-Learn предлагает два средства для оптимизации настройки гиперпараметров: GridSearchCV и RandomizedSearchCV. GridSearchCV выполняет исчерпывающий поиск по заданным значениям параметров для оценки (или алгоритма машинного обучения) и возвращает наиболее эффективную..

Курирование ресурсов для достижения успеха в машинном обучении 6.4
indices = np.argsort(importances)[::-1] Важность признаков с лесами деревьев — документация scikit-learn 0.19.1 В этом примере показано использование лесов деревьев для оценки важности признаков в искусственной классификации… scikit-learn.org 15 расширенных срезов Чтобы упростить реализацию последовательностей, поддерживающих расширенные срезы, объекты срезов теперь имеют метод index(length)…..

Что такое масштабирование функций и почему оно важно в машинном обучении?
MinMaxScaler против StandardScaler против RobustScaler Масштабирование функций - это процесс нормализации диапазона функций в наборе данных. Реальные наборы данных часто содержат функции, которые различаются по степени величины, диапазону и единицам измерения. Следовательно, чтобы модели машинного обучения интерпретировали эти функции в одном масштабе, нам необходимо выполнить масштабирование функций. В мире науки мы все знаем, как важно сравнивать яблоки с яблоками, и все же..