Публикации по теме 'statistics'
Анализ выбросов
Что такое выбросы?
Выбросы — это точки данных, которые не следуют общей тенденции или ведут себя не так, как ведут себя другие основные точки данных. Выбросы имеют существенное отличие в распределении переменных (атрибутов) от других точек данных.
Обнаружение выбросов также известно как « Обнаружение аномалий » и « Обнаружение новшеств ». Эти точки данных также известны как « экстремальные точки данных » и « шум ».
Почему важно обнаруживать и удалять выбросы?
Выбросы должны быть..
10 советов по улучшению вашего регрессионного моделирования
Машинное обучение
10 советов по улучшению вашего регрессионного моделирования
Из книги Регрессия и другие истории
Регрессионное моделирование — это мощный инструмент, который можно применять ко многим событиям в реальной жизни. Он активно используется во многих компаниях для решения всевозможных деловых вопросов.
Регрессию можно использовать для объяснения определенного события, например, почему продажи упали в прошлом месяце; делать прогнозы, например, какие продажи будут в..
Вычислить среднее значение, медианное значение и режим в BigQuery
Прямой код для вычисления простых агрегатов
BigQuery - это аналитический инструмент с быстрой обработкой, который обрабатывает запросы SQL на платформе Google Cloud Platform. В этой статье я покажу примеры кода для вычисления среднего, медианного и режима простого набора данных в BigQuery. Каждый раз, когда мы начинаем исследовательский анализ данных, это первые несколько показателей, которые необходимо вычислить в числовых полях, чтобы понять распределение данных.
Если вы хотите узнать..
Основные методы масштабирования данных машинного обучения
Линейная нормализация и стандартизация Z-оценки — два наиболее распространенных метода масштабирования данных в ML.
В этой статье представлено краткое руководство по определению обоих методов масштабирования.
Линейная нормализация:
Часто называется нормализацией масштабирования. Он масштабирует значение в диапазоне [0,1]. Формула для расчета нормализации: Xnormalized=(X-Xmin)/(Xmax-Xmin).
Стандартизация Z-оценки:
Часто называется нормализацией Z-оценки. Он перемасштабирует..
Моделирование оттока с использованием методов ансамбля (XGBoost) с Python
Преимущества ансамблевых методов, таких как Random Forests, AdaBoost, XGBoost и т. д.
Менее подвержены ошибкам из-за выбросов Масштабирование переменных не требуется, поскольку разбиение дерева основано на упорядочении переменных, а не на абсолютном значении. Более устойчивая производительность против пропущенных значений Поддерживает распределенные вычисления, а задания можно разделить на несколько процессоров. Используется в качестве «серебряной пули» в промышленности..
Почему уменьшение размерности имеет решающее значение в моделях машинного обучения?
Привет, ребята,
Высокая размерность создает проблемы с точностью производительности моделей машинного обучения. В этой статье я исследовал важность уменьшения размерности при построении моделей машинного обучения и обсудил, почему высокая размерность влияет на производительность моделей машинного обучения/статистических моделей. Здесь я коснулся следующих вопросов:
Что такое высокая размерность? Какие трудности вызывает высокая размерность? Что такое проклятие размерности?..
Советы и хитрости Pythonic - поиск GCD и LCM
Путь Змеи
Советы и хитрости Pythonic - поиск GCD и LCM
Как получить наибольший общий знаменатель и наименьший общий множитель с помощью Python
Для многих из нас поиск наибольшего общего знаменателя между числами был обычным делом в математике в начальной школе. Однако в реальном мире поиск НОД может составлять неотъемлемую часть наших алгоритмов и анализа. В этой статье мы рассмотрим, как получить НОД при различных сценариях.
Давайте начнем!
«Создайте функцию, которая будет..