Мой путь в науку о данных (часть 2)

Область науки о данных вращается вокруг теории вероятностей и статистики. Следовательно, очень важно иметь четкое представление об этих концепциях.

Почему вероятность машинного обучения?

Вероятность - это наука о неопределенности. Всякий раз, когда есть сомнения в наступлении события, используются концепции вероятности для оценки вероятности события.

  1. Проблемы классификации требуют вероятности предсказать, какой результат.
  2. Некоторые модели созданы на основе вероятности (линейная регрессия, логистическая регрессия, наивное смещение).
  3. Модели обучаются с использованием итеративного алгоритма, основанного на вероятности (оценка максимального правдоподобия, максимизация ожидания).
  4. Модели оцениваются с помощью вероятностной меры (потеря журнала, Roc-Auc).

Неопределенность в машинном обучении

Машинное обучение связано с множеством неопределенностей.

  1. Шум в наблюдаемых данных. Вариабельность данных, также называемая структурой, ошибкой или опечаткой. Это значение, которое так далеко от среднего. Это повлияет на всю раздачу.
  2. Неполный охват: наблюдаемые данные представляют собой выборку по сравнению со всей генеральной совокупностью. Собранные, наблюдаемые данные могут быть случайными, но они все равно не охватывают все аспекты популяции.
  3. Модели не идеальны. В модели всегда будут ошибки (смещение и вариация), влияющие на прогноз.

Вероятность используется для управления неопределенностями.

Пространство вероятностей

Здесь есть три основных компонента: пространство выборки, события и мера вероятности.

  1. Пространство образца: пространство образца - это набор всех возможных результатов или совокупность всех возможных элементов, например, пространство образца монеты S = {H, T} (на монете будет отображаться либо Голова или хвост).
  2. Событие: событие - это подмножество пробного пространства. Это означает благоприятные исходы. Для подбрасывания монеты событие выпадения головы - {H}.
  3. Показатель вероятности. Это значение, присвоенное событию, которое отражает вероятность его наступления. Диапазон значений от 0 до 1, где 0 означает отсутствие шансов на то, что событие произойдет, а 1 означает, что событие, несомненно, произойдет. Вероятность появления головы равна 0,5 (событие / пространство выборки) или (Благоприятный исход / весь исход) {H} / {H, T} = 1/2. Сумма вероятности всех событий в пространстве выборки равна 1. {H, T} = {0,5,0,5}.

Случайная переменная

Случайная переменная - это результат случайного события, которое можно измерить или подсчитать. Короче говоря, это переменная, значения которой зависят от результатов события - два типа RV.

  1. Дискретная случайная переменная: переменная, имеющая конечный набор результатов. Например, случайная переменная, брошенная в кости, - это {1,2,3,4,5,6} Случайная переменная не является выборкой. Это только показывает, сколько может быть фактических значений. Предположим, вы выбросили шестерку, тогда RV равно 6.
  2. Непрерывная случайная переменная: переменная, имеющая бесконечный набор результатов, например {Рост студентов}.

Правила вероятности

если A - событие, то P (A) - вероятность того, что это событие произойдет. P (A) = Благоприятный результат / Все исходы.

Вероятность одновременного возникновения двух отдельных событий равна P (A) * P (B). Это принцип умножения (и означает умножить). Его также называют пересечением двух событий P (A∩B).

Вероятность наступления любого из двух событий равна P (A) + P (B). Это аддитивный принцип (или означает добавить). Его еще называют объединением двух событий P (A∪B).

Правило 1: для любого события A, 0 ≤ P (A) ≤ 1.

Правило 2: сумма вероятностей всех возможных исходов равна 1.

Правило 3 (Правило дополнения): P (не A) = 1 - P (A).

Правило 4: Два события, которые не могут происходить одновременно, называются несовпадающими или взаимоисключающими.

Правило 5: P (A или B) = P (A) + P (B) -P (A и B).

Ожидание

Это средневзвешенная вероятность всех возможных значений случайной величины. E [X] = ∑x.P (x) (суммирование (все исходы * вероятность такого исхода). Его можно интерпретировать как долгосрочное среднее многих независимых выборок из данного Распределения.

Проще говоря, когда количество независимых выборок увеличивается (100 бросков кубика), среднее значение всех 100 результатов будет близко к ожидаемому значению.

Ожидание - это среднее значение случайной переменной.

E(X+Y)=E(X)+E(Y)

E(X*Y)=E(X)*E(Y)

Знак ожидания

возьмем пример лотереи, где билет стоит 10 долларов, чтобы выиграть 10 миллионов долларов. 50% -ный шанс выиграть 100 долларов означает для вас 50 долларов (0,5 * 100), тогда вероятность выигрыша в лотерею составляет 0,0000001. Ожидаемое значение (0,0000001 x 10 000 000) = 1 доллар США. Это стоимость билета за 1 билет, но его покупка стоит 10 долларов. Так стоит ли покупать? Все события имеют определенный аспект риска и ценности.

Дисперсия случайной величины

Ожидание обеспечивает некоторую центральность. Дисперсия случайной величины количественно определяет разброс распределения этой случайной величины. Var (X) = E [(X − E [X]) ²].

Три типа вероятностей

  1. Совместная вероятность: вероятность того, что два события произойдут вместе, P (AandB).
  2. Предельная вероятность: вероятность события независимо от результата другой переменной.
  3. Условная вероятность: вероятность того, что одно событие произойдет при наличии второго события.

Здесь a, b, c и d - все совместные вероятности, поскольку P (Группа 1 и №) = a (два события происходят вместе).

a + b и c + d - вероятность маржи, поскольку вероятность (Да или Нет) не влияет, она только сообщает вероятность для Группы 1 и Группы 2, поэтому P (Группа 1) = a + b.

Распределение вероятностей

Распределение вероятностей - это функция, описывающая вероятность получения возможных значений, которые может принимать случайная величина.

Три типа раздачи:

  1. Равномерное распределение
  2. Дискретное распределение
  3. Непрерывное распространение

Равномерное распределение

Все исходы имеют равную вероятность наступления.

например, распределение вероятностей кубика.

Дискретное распределение (функция масс вероятности)

Распределения с конечным числом результатов.

1) Распределение Бернулли:

Распределение события, которое включает только одно испытание, и это испытание имеет два результата, например, подбрасывание монеты, угадывание только одного истинного или ложного вопроса.

(x ~ B (n = 1, p)) n = испытания, p = вероятность.

Out Comes = P (Успех) или (1-P) (Неудача)

Вариация этого распределения - вероятность успеха * вероятность неудачи.

Ожидаемое значение (среднее) = P

Дисперсия = P (1-P)

Стандартное отклонение = √P (1-P)

2) Биномиальное распределение

Распределение события включает n испытаний, и каждое испытание имеет два результата, например, подбрасывание десяти монет с угадыванием всех истинных или ложных вопросов.

(x~B(n=1,p))

p = вероятность успеха

q = вероятность отказа

n = Всего испытаний, x = Нет. Испытания

Ожидаемое значение (среднее значение) = P * n

Дисперсия = P (1-P)

Стандартное отклонение = √P (1-P)

например, подбрасывание 10 монет какова вероятность выпадения 5 голов?

p = 0,5 (голова), q = 0,5, n = 10, x = 5, тогда P (5 голов) = 252 * 0,5⁵ * 0,5⁵ = 0,24

или 24% шанс получить 5 решек за 10 бросков.

3) Гипергеометрическое распределение

Рассмотрим случай рисования голубого шарика из коробки с шариками разных цветов. Вытащить синий шар - это успех, а не вытянуть его - это неудача. Каждый раз, когда вытаскивают шарик, он не возвращается в коробку, и, следовательно, это влияет на вероятность вытягивания шарика в последующем испытании. Гипергеометрическое распределение моделирует вероятность k успехов в n испытаниях, где каждое испытание проводится без замены. Это не похоже на биномиальное распределение, где вероятность остается постоянной на протяжении испытаний.

k = элемент, представляющий интерес в популяции

N = размер популяции

n = размер выборки

x = элементы, выбранные из n

Ожидаемое значение (среднее значение) = n * k / N

Дисперсия = [n * k * (N - k) * (N - n)] / [N 2 * (N -1)]

Стандартное отклонение = √ [n * k * (N - k) * (N - n)] / [N 2 * (N -1)]

например. 2 пики в 5-карточной покерной руке.

N=52 ,k=13 ,n=5 ,x=2 => 0.274

4) Отрицательное биномиальное распределение

Чтобы проверить, сколько попыток Бернулли нам нужно сделать, чтобы добиться n-го успеха. Желаемый результат оговаривается заранее, и мы продолжаем эксперимент, пока он не будет достигнут.

n = нет. трасс, k = no. успеха

p = вероятность успеха

Например, монету бросают несколько раз, пока в шестой раз не выпадет голова. Какова вероятность, что это произойдет при 15-м броске?

P (x = 15) = (14 5) (0,5) ⁶ (1–0,5) ⁹ = ›0,06109 шанс для события, в котором 15-й бросок в 6-ю голову

mean = 6 / 0,5 = 12 (нужно попробовать 12 событий, чтобы получить событие с 6-й головой в 15-м броске)

Ожидаемое значение (среднее значение) = r / p

Дисперсия = r / p²

Стандартное отклонение = √r / p²

5) Геометрическое распределение

Геометрическое распределение - это распределение количества испытаний, необходимых для первого успеха в n испытаниях Бернулли.

n = нет. Испытаний

p = проблема успеха

например, если 30% взрослых прошли обучение СЛР, то какова вероятность того, что 6-й отобранный человек будет первым, прошедшим обучение СЛР (или первым успешным при отборе)

p(x=6)=0.3*(0.7)⁵ => 0.0504

mean = 3.3 = ›4 (мероприятия должны проводиться так, чтобы в конкретном событии шестой человек, из которого будет произведена выборка, будет первым успешным)

Ожидаемое значение (среднее значение) = 1 / p

Дисперсия = 1 п / п²

Стандартное отклонение = √1-p / p²

6) Распределение Пуассона

Имеет дело с частотой возникновения события в пределах интервала, а не с тем, произойдет ли событие.

Ожидаемое значение (среднее значение) = λ

Дисперсия = λ

Стандартное отклонение = √λ

Предположение:

  1. Скорость, с которой происходят события, постоянна.
  2. Каждое событие является независимым и не влияет на другие события.

например, за 1 день задается 4 вопроса. Какова вероятность, что будут заданы 7 вопросов? (Речь идет не о вероятности того, будет ли задан вопрос)

λ = 4, x = 7 = 0,06 или 6% шанс

по мере увеличения λ распределение станет напоминать нормальное распределение

7) Мультиномиальное распределение

Обобщение биномиального распределения

Биномиальный: два события (успех или неудача)

Полиномиальный: несколько событий

Непрерывное распределение (функция плотности вероятности)

Бесконечное пространство выборки не может записывать частоту для каждого отдельного значения.

1) Нормальное распределение (гауссово)

Непрерывное распределение с колоколообразной кривой.

например, рост всех взрослых

Ожидаемое значение (среднее значение) = μ

Дисперсия = σ²

Стандартное отклонение = σ

Это наиболее важное распределение вероятностей, поскольку оно соответствует многим природным явлениям. Распределение симметрично относительно среднего и встречается чаще, чем данные, далекие от среднего.

μ ± 1σ = 68% Это говорит о том, что 68% данных находятся между ± 1σ

μ ± 2σ = 95% Это говорит о том, что 95% данных находятся между ± 2σ

μ ± 3σ = 99,7% Это говорит о том, что 99,7% данных находятся между ± 3σ и так далее 4,5,6… σ

2) Распределение студентов

Нормальное распределение с широкими хвостами, t-распределение студентов используется, когда размер выборки невелик, а дисперсия генеральной совокупности неизвестна (когда выборка меньше 50 наблюдений).

Нормальное распределение использует статистику z

Распределение T студентов использует t-статистику

s = дисперсия

Ожидаемое значение (среднее значение) = μ

Дисперсия = s² * k / k-2

Стандартное отклонение = √s² * k / k-2

3) Распределение Chi-sq

Критерии критерия Chi-sq на соответствие наблюдаемого распределения теоретическому (Z- ›нормальное распределение, затем Z² -› распределение chi sq с d.o.f = 1) d.o.f - это количество суммированных независимых нормальных распределений.

Ожидаемое значение (среднее значение) = d.o.f

Дисперсия = 2 * d.o.f

Стандартное отклонение = √2 * d.o.f

Chi sq в основном используется для проверки согласия (наблюдаемое и теоретическое) и проверки на независимость.

Доброта Подгонки

Например, из 75 студентов 11 левши. Соответствует ли этот образец теории 12% левшей?

Насколько далеко ожидаемое значение от наблюдаемого?

Ожидаемый (левша) = 12% от 75

Oi = наблюдается

Ei = Ожидается

H0: теория верна (12% левшей) = 0,12

H1: Теория неверна (x% левши) ≠ 0,12

Степень свободы = (количество строк -1) * (количество столбцов -1), значимость = 0,05

Chi2 = (11–9) ² / 9 = 0,505, из таблицы получаем 3,84

H0 отклоняется, если Chi2> 3,84 (значение из таблицы), так как Chi2

Испытание на независимость

Например, опрошено 120 человек, чтобы узнать, какие социальные сети они предпочитают. Не зависят ли предпочтения в социальных сетях от пола?

Наблюдаемое значение преобразуется в ожидаемое значение путем умножения предельной вероятности и деления на общую сумму.

E для 15 = (50 * 35) /120=14.6

DOF = 2, значение значимости = 0,05

H0: независимый

H1: зависимый

Chi2 = (15–14,6) ² / 14,6 + (30–27,1) ² / 27,1 +…. = 2,84

Отклонить, если Chi2 ›5.991, H0 допустимы в социальных сетях и пол не зависит.

4) Экспоненциальное распределение

Экспоненциальное распределение - это распределение вероятностей времени между событиями в точечном процессе Пуассона. Обратное к распределению Пуассона,

p(x)=1- e^(-x/μ)

λ = 1 / μ (параметр скорости)

x = случайная переменная

В распределении Пуассона светлячок загорается за 10 секунд для экспоненциального распределения, это время между светлячком.

например, светлячок загорается 2 раза за 10 секунд (расстояние Пуассона) Вероятность того, что светлячок загорится в следующие 5 секунд (экспоненциальное распределение)

λ = 2, μ = 1/2, = ›0,99995460007 или 99,99% шанс, что светлячок загорится в следующие 5 секунд

Кумулятивно-распределительная функция

CDF случайной величины x представляет собой сумму всех вероятностей, меньших или равных x, например, прокатка матрицы, меньшая или равная 4, такая же, как вероятность прокатки 1, + прокатки 2, + прокатки 3, + прокатки 4.

P(x<4)=P(x=1)+P(x=2)+P(x=3)+P(x=4).

0.16+0.16+0.16+0.16=0.66.

аналогично, вероятность выпадения шестерки или меньше будет равна 1, поскольку нет возможности выпадать больше 6.

CDF используется для вычисления совокупной вероятности для данного значения x. Файл. CDF определяет вероятность того, что случайное наблюдение, взятое из совокупности, будет меньше или равна определенному значению.

Условная возможность

Вероятность события A с учетом того, что другое B уже произошло. Вытащить синий шар - это успех, а не вытянуть его - это неудача. Каждый раз, когда вытаскивают шарик, он не возвращается в коробку, и, следовательно, это влияет на вероятность вытягивания шарика в последующем испытании.

Теорема Байеса

Теорема Байеса - это принципиальный способ вычисления условной вероятности без совместной вероятности (Вероятность двух (или более) одновременных событий, например, P (A и B)). Теорема Байеса гласит, что если мы знаем P (A | B), то мы можем определить P (B | A), учитывая, что P (A) и P (B) нам известны.

например, 1% населения страдает Х-болезнью. Скрининговый тест точно выявляет болезнь у 90% людей. Тест также указывает на болезнь у 15% людей без нее (ложные срабатывания). Предположим, человек, прошедший скрининг на болезнь, дал положительный результат. Какова вероятность этого?

p (x) = вероятность заболевания, p (+ ve) = вероятность положительного результата теста, p (x ’) = вероятность отсутствия заболевания

p(x)=0.01, p(+ve/x)=0.9, p(+ve/x’)=0.15, p(x/+ve)=?

p(x/+ve)=p(+ve/x)p(x)/p(+ve)

p (x / + ve) = 0,9 * 0,01 / 0,1575 = 0,057 или 5,7%, чтобы действительно иметь заболевание, если тест показывает + ve

p (+ ve) = - проверка вероятности показывает + ve

Всего + ve = [(90% тестов показывают + ve для 1% населения, которое действительно болеет) + (15% тестов показывают + ve для оставшихся 99% населения, у которых нет заболевания)]

Итого + ve = (0,9 × 0,01) + (0,99 × 0,15) = 0,1575

Спасибо за чтение!

использованная литература







Изображения - ›Google