Публикации по теме 'statistics'


От непрерывного к категориальному: изучение логистической регрессии   —   неделя 3, день 17
Приветствую, энтузиаст данных! Добро пожаловать на 17-й день нашей серии «Python для науки о данных: 100 дней до мастерства». Основываясь на нашем понимании линейной регрессии из 16-го дня, сегодня мы переходим к логистической регрессии — важному инструменту для задач классификации. К концу нашего занятия вы овладеете концепцией и практической реализацией логистической регрессии с использованием Python. Логистическая регрессия: учебник для начинающих В то время как линейная..

Мера изменчивости
Термины «мера изменчивости» и «мера дисперсии» используются в статистике взаимозаменяемо. Оба они относятся к одному и тому же понятию, которое определяет количественную оценку разброса или рассеяния точек данных в наборе данных. Меры изменчивости или дисперсии предоставляют информацию о том, как точки данных распределяются вокруг центральной меры тенденции (такой как среднее значение, медиана или мода), и указывают на разброс или степень, в которой значения отклоняются от центрального..

Как не быть обманутым точностью модели
Визуальное руководство по метрикам модели бинарной классификации и их правильному использованию Фон — простой на поверхности Метрики, используемые для оценки эффективности моделей классификации, довольно просты, по крайней мере, с математической точки зрения. Тем не менее, я заметил, что многие специалисты по моделированию и специалисты по данным сталкиваются с трудностями при формулировании этих показателей и даже применяют их неправильно. Это легко допустить ошибку, поскольку эти..

Что такое начальная загрузка в машинном обучении?
Большая часть статистики связана со сравнением двух вещей и определением того, различаются ли они на самом деле, или же мы случайно наблюдали разницу в собранной нами выборке, но на самом деле разницы нет. Вот что делает статистику такой интересной. Например, действительно ли производительность iphone13 лучше, чем у iphone10? Или модель машинного обучения, которую я построил, действительно лучше существующей системы? Для примера с iphone, как бы вы это сделали? Предположим, вы измеряете..

Преобразование числовых данных в категориальные данные.
Функция pd.cut() в Pandas используется для разделения значений на дискретные интервалы. Эта функция полезна для сегментации и сортировки значений данных по интервалам, а также для преобразования непрерывной переменной в категориальную переменную. Синтаксис для pd.cut() следующий: pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=”raise”,) x — это входной массив, который нужно сгруппировать. Должен быть 1-мерным. bins..

Наивные байесовские классификаторы
Что такое наивный байесовский алгоритм/классификаторы? Наивный байесовский классификатор — это контролируемый алгоритм машинного обучения. который используется для задач классификации, таких как классификация текста. Наивный Байес — это метод классификации, основанный на теореме Байеса с предположением, что все признаки, которые предсказывают целевое значение, независимы друг от друга. Он вычисляет вероятность каждого класса, а затем выбирает тот, который имеет наибольшую..

Анализ выбросов
Что такое выбросы? Выбросы — это точки данных, которые не следуют общей тенденции или ведут себя не так, как ведут себя другие основные точки данных. Выбросы имеют существенное отличие в распределении переменных (атрибутов) от других точек данных. Обнаружение выбросов также известно как « Обнаружение аномалий » и « Обнаружение новшеств ». Эти точки данных также известны как « экстремальные точки данных » и « шум ». Почему важно обнаруживать и удалять выбросы? Выбросы должны быть..