Статьи по теме statistics

Публикации по теме 'statistics'

Анализ выбросов

Что такое выбросы? Выбросы — это точки данных, которые не следуют общей тенденции или ведут себя не так, как ведут себя другие основные точки данных. Выбросы имеют существенное отличие в распределении переменных (атрибутов) от других точек данных. Обнаружение выбросов также известно как « Обнаружение аномалий » и « Обнаружение новшеств ». Эти точки данных также известны как « экстремальные точки данных » и « шум ». Почему важно обнаруживать и удалять выбросы? Выбросы должны быть..

10 советов по улучшению вашего регрессионного моделирования

Машинное обучение 10 советов по улучшению вашего регрессионного моделирования Из книги Регрессия и другие истории Регрессионное моделирование — это мощный инструмент, который можно применять ко многим событиям в реальной жизни. Он активно используется во многих компаниях для решения всевозможных деловых вопросов. Регрессию можно использовать для объяснения определенного события, например, почему продажи упали в прошлом месяце; делать прогнозы, например, какие продажи будут в..

Вычислить среднее значение, медианное значение и режим в BigQuery

Прямой код для вычисления простых агрегатов BigQuery - это аналитический инструмент с быстрой обработкой, который обрабатывает запросы SQL на платформе Google Cloud Platform. В этой статье я покажу примеры кода для вычисления среднего, медианного и режима простого набора данных в BigQuery. Каждый раз, когда мы начинаем исследовательский анализ данных, это первые несколько показателей, которые необходимо вычислить в числовых полях, чтобы понять распределение данных. Если вы хотите узнать..

Основные методы масштабирования данных машинного обучения

Линейная нормализация и стандартизация Z-оценки — два наиболее распространенных метода масштабирования данных в ML. В этой статье представлено краткое руководство по определению обоих методов масштабирования. Линейная нормализация: Часто называется нормализацией масштабирования. Он масштабирует значение в диапазоне [0,1]. Формула для расчета нормализации: Xnormalized=(X-Xmin)/(Xmax-Xmin). Стандартизация Z-оценки: Часто называется нормализацией Z-оценки. Он перемасштабирует..

Моделирование оттока с использованием методов ансамбля (XGBoost) с Python

Преимущества ансамблевых методов, таких как Random Forests, AdaBoost, XGBoost и т. д. Менее подвержены ошибкам из-за выбросов Масштабирование переменных не требуется, поскольку разбиение дерева основано на упорядочении переменных, а не на абсолютном значении. Более устойчивая производительность против пропущенных значений Поддерживает распределенные вычисления, а задания можно разделить на несколько процессоров. Используется в качестве «серебряной пули» в промышленности..

Почему уменьшение размерности имеет решающее значение в моделях машинного обучения?

Привет, ребята, Высокая размерность создает проблемы с точностью производительности моделей машинного обучения. В этой статье я исследовал важность уменьшения размерности при построении моделей машинного обучения и обсудил, почему высокая размерность влияет на производительность моделей машинного обучения/статистических моделей. Здесь я коснулся следующих вопросов: Что такое высокая размерность? Какие трудности вызывает высокая размерность? Что такое проклятие размерности?..

Советы и хитрости Pythonic - поиск GCD и LCM

Путь Змеи Советы и хитрости Pythonic - поиск GCD и LCM Как получить наибольший общий знаменатель и наименьший общий множитель с помощью Python Для многих из нас поиск наибольшего общего знаменателя между числами был обычным делом в математике в начальной школе. Однако в реальном мире поиск НОД может составлять неотъемлемую часть наших алгоритмов и анализа. В этой статье мы рассмотрим, как получить НОД при различных сценариях. Давайте начнем! «Создайте функцию, которая будет..