Публикации по теме 'statistics'


Как обнаружить мультиколлинеарность и бороться с ней
Подробное объяснение по выявлению и исправлению мультиколлинеарности числовых переменных Мультиколлинеарность - одно из основных предположений, которое необходимо исключить, чтобы получить лучшую оценку любой регрессионной модели ✌️ В этой статье я расскажу о влиянии мультиколлинеарности, о том, как определить и когда исправить эту проблему с помощью образца набора данных. 👉 Что такое корреляция? Корреляцию между двумя переменными можно измерить с помощью коэффициента..

Проблема байесовского вывода, MCMC и вариационный вывод
Обзор проблемы байесовского вывода в статистике. Этот пост написан в соавторстве с Батистом Рокка . Вступление Байесовский вывод - серьезная проблема в статистике, которая также встречается во многих методах машинного обучения. Например, модели смеси Гаусса для классификации или скрытое распределение Дирихле для тематического моделирования являются графическими моделями, требующими решения такой проблемы при подборе данных. Между тем, можно заметить, что проблемы байесовского..

Интуитивное руководство по линейной регрессии
Частотный, лассо и байесовский выбор переменных с использованием AutoStat® Наша цель — использовать линейную регрессию для изучения содержания алкоголя (%) в вине на основе сорта винограда и дополнительных химических свойств. Данные в этом тематическом исследовании представляют собой измерения характеристик вина из 3 разных сортов винограда. Вина производятся в одном и том же регионе Италии . Данные доступны на https://archive.ics.uci.edu/ml/datasets/wine и содержат измерения по..

Ветвление или не ветвление: концепция алгоритма дерева решений
Очень часто сложная проблема требует простого и элегантного решения. Простая структура алгоритма дерева решений предлагает мощное решение как в форме регрессии, так и в форме классификации . Но мы собираемся сосредоточиться только на его форме классификации с двумя разделами: структура дерева решений и сложный тип данных. Структура дерева решений Давайте создадим 100 экземпляров примерных данных с 3 независимыми функциями — «отсутствие», «Промежуточный» и «Окончательный» — и 1..

Линейный классификатор SVM простейшими словами
В этом блоге я просто хочу, чтобы мои читатели поняли, как работает классификатор SVM самым простым способом. Таким образом, машина опорных векторов (SVM) используется для разделения точек данных разных классов путем рисования границы решения между классами, состоящими из различных точек данных, представленных каждым классом. Граница принятия решения, которая создается между наборами точек данных, известна как гиперплоскость , и SVM помогает ее создать. Формулировки проблемы, в..

От линейной регрессии к гребневой регрессии, лассо и эластичной сети
От линейной регрессии к гребневой регрессии, лассо и эластичной сети И почему вам следует изучить альтернативные методы регрессии Вступление: Обычный метод наименьших квадратов (« OLS» ) - один из самых старых и простых алгоритмов, используемых для регрессии. Однако сейчас существует несколько вариантов, которые были изобретены для устранения некоторых недостатков, возникающих при использовании регулярной регрессии наименьших квадратов. Несмотря на то, что линейные модели..

Нормальное распределение, асимметрия и эксцесс
Нормальное распределение также называется распределением Гаусса и представляет собой тип распределения вероятностей, симметричный относительно среднего значения. Это выглядит как кривая нормального распределения, как показано на рисунке ниже. Коэффициенты асимметрии и эксцесса измеряют, насколько данное распределение отличается от «нормального распределения». Асимметрия: Асимметрия измеряет симметрию распределения. Нормальное распределение является симметричным и имеет..