Публикации по теме 'scikit-learn'
K-означает кластеризацию с помощью Python
В этой статье мы разберемся с основами кластеризации K Mean и реализуем ее на Python, используя знаменитую библиотеку машинного обучения Scikit-learn.
Что такое кластеризация K-средств?
Кластеризация K-средств - это алгоритм машинного обучения без учителя . Он принимает смешанные данные и делит данные на небольшие группы / кластеры на основе шаблонов в данные .
Цель алгоритма K средних
AudreyBu однажды сказал:
Цель K-средних проста: сгруппировать похожие точки..
Что, черт возьми, такое auto-sklearn?
В этой статье используются python, pandas и sci kit learn.
Пожалуй, лучше всего они говорят об этом на своем сайте :
Auto-sklearn освобождает пользователя машинного обучения от выбора алгоритма и настройки гиперпараметров. Он использует недавние преимущества в байесовской оптимизации, метаобучении и построении ансамблей.
Если вам это не нравится, имейте в виду, что он также обрабатывает предварительную обработку данных: фиктивная кодировка (функции должны быть типа category , а не..
Моделирование со скрытым распределением Дирихле
В эпоху современного Интернета и социальных сетей мнения, обзоры и рекомендации людей стали ценным ресурсом для политологии и бизнеса. Благодаря современным технологиям мы теперь можем наиболее эффективно собирать и анализировать такие данные.
Мы углубимся в анализ настроений и узнаем, как использовать тематическое моделирование, чтобы разделить обзоры фильмов на разные категории. Мы собираемся работать с набором данных из 50 000 обзоров фильмов из Интернет- базы данных фильмов..
Выбор функций в Python
Машинное обучение , Программирование
Выбор функций в Python
Практический пример того, как можно выбрать самые важные функции
Мы предоставим пошаговый пример того, как вы можете выбрать наиболее важные функции. В этом примере мы будем работать с проблемой классификации, но ее можно распространить и на случаи регрессии, настроив параметры функции.
Будем работать с датасетом рак груди . Давайте начнем:
import pandas as pd
import numpy as np
from scipy import stats
from..
Реализация пользовательских GridSearchCV и RandomSearchCV без scikit-learn
Полный код в Kaggle и Github
Мое видео на YouTube Объяснение кросс-валидации K-Fold с помощью диаграммы
Мое видео на YouTube Реализация GridSearchCV с нуля без использования Sckit-Learn
Scikit-Learn предлагает два средства для оптимизации настройки гиперпараметров: GridSearchCV и RandomizedSearchCV.
GridSearchCV выполняет исчерпывающий поиск по заданным значениям параметров для оценки (или алгоритма машинного обучения) и возвращает наиболее эффективную..
Курирование ресурсов для достижения успеха в машинном обучении 6.4
indices = np.argsort(importances)[::-1]
Важность признаков с лесами деревьев — документация scikit-learn 0.19.1 В этом примере показано использование лесов деревьев для оценки важности признаков в искусственной классификации… scikit-learn.org
15 расширенных срезов Чтобы упростить реализацию последовательностей, поддерживающих расширенные срезы, объекты срезов теперь имеют метод index(length)…..
Что такое масштабирование функций и почему оно важно в машинном обучении?
MinMaxScaler против StandardScaler против RobustScaler
Масштабирование функций - это процесс нормализации диапазона функций в наборе данных.
Реальные наборы данных часто содержат функции, которые различаются по степени величины, диапазону и единицам измерения. Следовательно, чтобы модели машинного обучения интерпретировали эти функции в одном масштабе, нам необходимо выполнить масштабирование функций.
В мире науки мы все знаем, как важно сравнивать яблоки с яблоками, и все же..