Введение в вероятность и статистику для специалистов по данным и машинное обучение с использованием Python …

Введение в вероятность и статистику.

Давайте поймем необходимость вероятности на примере.

Это карта Индии, которая показывает региональную классификацию, основанную на языке, на котором говорят люди. Теперь область, выделенная желтым цветом, показывает количество людей, говорящих на бихари, а в оранжевой области (центральная зона) люди говорят на хинди. Сейчас главное беспокойство людей, живущих недалеко от границы Бихари и центральной зоны, на каком языке они говорят. Хотя на фото кажется, что они говорят на хинди, есть шанс, что они могут говорить на бихари. Это может быть связано с разными причинами: некоторые люди со стороны Бихари переехали в центральный регион. В таком случае с помощью вероятности можно наблюдать, что существует вероятность 0,8 того, что они говорят на хинди, и 0,2, что они говорят на бихари.

Давайте сделаем первый шаг к вероятности с некоторым новым термином:

Переменная: объект, который может содержать любое значение. (например, х = температура_дня, здесь х — переменная).
Константа или неслучайная переменная: объект, который может содержать постоянное значение. (например, x = 59°, кондиционер может поддерживать его постоянным).
Случайная переменная: сущность, значение которой является переменной из фиксированного набора констант (сегодня данные = 1–31, это может быть любая фиксированная дата месяцев, от 1 до 31 числа). Еще здесь.

Кубик может иметь любой результат от 1 до 6.

Следовательно, возможный результат равен {1,2,3,4,5,6} = 6.

А вероятность получить X = 3, если при бросании игральной кости выпало 3.

Р(Х=3): 1/6. Здесь 1, потому что из всех 6 (1,2,3,4,5,6) комбинаций есть только одна 3.

P(X= четное число) => P(X=2) + P(X=4) + P(X=6) => 1/2 +1/2 +1/2

Существует два типа данных: дискретные и случайные.

Дискретные данные: они могут принимать определенные значения или могут быть подсчитаны. Например, бросок игральной кости может привести к 6 результатам, бросок монеты может привести к 2 результатам, количество сотрудников в компании.

Непрерывные данные: их нельзя подсчитать, но можно измерить. Например вес человека, рост человека. Эти значения могут быть десятичными.

Нормальное распределение (распределение Гаусса)

Возьмем пример любой компании. Контролируя заработную плату работников, можно заметить, что у большинства из них заработная плата одинаковая или незначительно отличается от средней или средней заработной платы.

Данные, которые имеют тенденцию приближаться к центральному значению, называются нормальным распределением.

Стандартные отклонения: показывает, как данные разбросаны по отношению к среднему значению.

Дисперсия: квадрат стандартных отклонений (𝜎).

Линейное пространство Numpy используется для разделения данных на n (n = 5) числовых точек. например 200–300 делится на 5 баллов.

В приведенном выше случае 50000 — это средняя зарплата, но есть несколько сотрудников, которые получают больше или меньше среднего, что называется дисперсией.

Стандартное нормальное распределение имеет среднее (𝜇) = 0 и стандартное отклонение (𝜎) = 1.

Потратьте некоторое время на это изображение и проверьте, как изменение параметра колеблется на графике.

Подробное объяснение можно найти здесь.

Центральная предельная теорема (CLT):

Если данная выборка не является нормальным распределением, то в этом случае можно использовать CLT для преобразования этого распределения в нормальное распределение.

Как подсчитала CLT. Давайте подсчитаем, сколько людей говорят по-английски в Индии. Трудно спрашивать об этом у каждого из большого индийского населения. Так что лучше брать выборку из случайных людей (скажем, 1000). Возьмем 100 случайных людей из этой выборки и проверим, на каком языке они говорят, вычислим среднее (X1) и дисперсию для этой выборки. Точно так же возьмите еще 100 случайных людей, спросите, на каком языке они говорят, и рассчитайте среднее значение (X2) и дисперсию. Повторите этот процесс несколько раз (X3, X4…. Xn).

Теперь рассмотрим эти средние (X1, X2….Xn) как точки данных и вычислим среднее значение (Y) из всех этих средних (X1, X2….Xn).

Y(среднее значение X) = среднее значение (X1, X2….Xn)

При построении X1, X2… Xn этот график будет ближе к нормальному распределению.

Если вы нашли эту статью полезной, поделитесь ею в Twitter, Facebook, LinkedIn и на ваших любимых форумах. Спасибо за чтение!

Введение в вероятность и статистику для специалистов по данным и машинное обучение с использованием Python …

Нормальное распределение (распределение Гаусса)

Центральная предельная теорема (CLT):

Вопросы по теме