Мой путь в науку о данных (часть 3)

Статистика - это дисциплина, которая касается сбора, организации, анализа, интерпретации и представления данных.

Почему статистика для науки о данных

Собранные данные представляют собой необработанные данные, а необработанные данные не предоставляют значимой информации. Вот почему нам нужна статистика для сбора, систематизации и анализа данных. Применительно к статистике: основные вопросы, например, какое наблюдение является наиболее распространенным? Есть ли разница между двумя экспериментами? Является ли собранная выборка репрезентативной для населения? Достаточно ли существенен полученный результат, чтобы иметь значение? На эти вопросы можно ответить с помощью статистики и превратить необработанные данные в значимую информацию.

Описательная и логическая статистика

Описательная статистика количественно описывает или суммирует данные. Он предоставляет среднее значение, медианное значение и режим данных. Описательная статистика использует графическое представление для визуализации распределения и сообщает, как каждая переменная связана друг с другом.

Логическая статистика позволяет делать прогнозы («выводы») на основе этих данных. С помощью логической статистики берутся данные из выборок и делаются обобщения о совокупности.

Данные подразделяются на Население и Выборка. Население - это совокупность всех интересных вещей. Выборка - это подмножество людей. Данные выборки можно дополнительно разделить на Случайная выборка или Репрезентативная выборка. Случайная выборка - это случайное подмножество генеральной совокупности, тогда как репрезентативная выборка точно представляет параметры генеральной совокупности. Данные также подразделяются на числовые и категориальные.

Уровень измерения

Данные делятся на категории Qulitaitive (категориальные) и количественные (числовые).

Qulitaitive: номинальный, порядковый

Количественный: интервалы, рацион

Представление категориальных данных

  1. Данные частотного распределения
  2. Гистограмма
  3. Круговая диаграмма
  4. Диаграмма Парето

Диаграмма Парето содержит как столбиковые, так и линейные диаграммы. Полоса представляет значение для каждого элемента, а линия представляет совокупную сумму. Принцип Парето гласит, что 80% эффекта происходит от 20% причины, например, разработчики программного обеспечения исправляют 20% ошибок, что решает 80% проблемы.

Представление числовых данных

  1. Гистограмма
  2. Кросстабильный
  3. Коробчатый сюжет
  4. Диаграмма разброса

Ширина интервала = (наибольшее количество - наименьшее количество) / количество желаемых интервалов

(10,20] интервал от 10 до 20 будет включать значения от 11 до 20, 10 не будет включаться в этот интервал, он будет предварительно установлен в [0,10], первый интервал будет состоять из обоих конечных значений.

Ящичковая диаграмма отображает числовые данные через их квартиль.

Центральная тенденция

Тенденция значений случайной переменной к группировке вокруг ее среднего значения, режима или медианы.

Мера центральной тенденции

Асимметрия

Наклон вправо или положительный перекос - это когда: средний ›средний› режим

перекос влево или отрицательный перекос - это когда: режим ›медиана› среднее

Дисперсия

дисперсия - это разброс точек данных вокруг среднего

σ² = дисперсия, N = общее количество баллов

μ = среднее значение, x = точки данных

Коэффициент дисперсии

Коэффициент дисперсии - это относительное стандартное отклонение; он рассчитывается как Стандартное отклонение / среднее значение. Он используется для сравнения разброса данных в разном масштабе.

Например, цена пиццы в долларах и ₹, допустим, стандартная цена пиццы составляет 3,27 доллара США, а стандартная цена пиццы = 61,56.

После расчета коэффициента дисперсии составляет $ = 0,60, а для = 0,60 (стандартное / среднее значение), обратите внимание, что спред в обоих случаях одинаков. Это просто в другом масштабе. Мы можем сравнить два данных в разном масштабе.

Ковариация

Ковариация - это мера взаимосвязи между переменными.

x̅ y̅ = среднее значение x, y

  • Положительная ковариация: указывает, что две переменные имеют тенденцию двигаться в одном направлении.
  • Отрицательная ковариация: показывает, что две переменные имеют тенденцию двигаться в противоположных направлениях.
  • Нейтральная ковариация: обе переменные независимы.

Коэффициент корреляции

x̅ y̅ = среднее значение x, y

Коэффициент корреляции регулирует ковариацию, так что связь между двумя переменными легко и интуитивно понятна для интерпретации.

Ковариация: 0, + ve или -ve (с помощью ковариации вы можете узнать, как связаны две переменные, независимо от того, движется ли она в одном направлении или наоборот, это не говорит о величине взаимосвязи)

Коэффициент корреляции: -1≤x≤1

Корреляция 1 означает, что вся изменчивость 1 переменная объясняется другой переменной (например, размер дома и цена, как размер вкл. / Убыток, цена также прибавка / убыток)

Корреляция -1 означает, что вся изменчивость 1 переменная объясняется другой переменной (мороженое и зонтики, продаваемые летом и в дождливую погоду, летом продажи увеличиваются, а продажи зонтов уменьшаются, и наоборот, в дождливую погоду)

Корреляция 0 означает, что две переменные независимы (например, цена дома и цена кофе в другой стране).

Корреляция ± 0.x = одна переменная объяснит x% дисперсии другой переменной

Типы корреляции

  1. Корреляция Пирсона. Корреляция Пирсона измеряет силу и направление линейной связи между двумя переменными. Они используются для непрерывных данных (над формулой).
  2. Корреляция Спирмена. Корреляция Спирмена - это непараметрическая версия корреляции Пирсона. Корреляция копейщика измеряет силу и направление монотонной связи между двумя ранжированными переменными. (Присвоение ранга путем присвоения наивысшего значения как ранга 1, второму по величине присваивается второе место и т. Д.), Корреляция обнаруживается на ранжированных переменных. Корреляция Спирмена может применяться к порядковым и непрерывным данным. диапазон [от -1 до 1]. (Монотонное соотношение: если одна переменная увеличивается / уменьшается, другая переменная не будет уменьшаться / увеличиваться)

di = Разница между двумя рангами

n = количество наблюдений

Причинно-следственная связь

Два события взаимосвязаны, но не вызывают друг друга.

например, Энди получает A +, когда солнечно. Санни коррелирует с A +, но Санни не вызывает A +.

Квантили и процентили

квантили - это точки отсечения, делящие диапазон распределения вероятностей на непрерывные интервалы с равными вероятностями.

процентиль - это балл, ниже которого падает данный процент баллов в его частотном распределении

например, медиана - это квантиль; он разбивает данные на две части (50% квантиль), значение медианы или 50% квантиля составляет 4,5, это процентиль (значение, которое дает квантиль, является процентилем, квантили используются, чтобы увидеть, какое значение 25%, 50% или 75% акций в распределении)

Итог из 5 баллов

  • 1-й квартиль: 25-й процентиль.
  • Медиана (2-й квартиль): среднее значение в выборке, также называемое 50-м процентилем или 2-м квартилем.
  • 3-й квартиль: 75-й процентиль.
  • Минимум: наименьшее наблюдение в выборке.
  • Максимум: самое большое наблюдение в выборке.

Выведенный статистика

Z Статистика

Стандартизация: измените каждый элемент в дистрибутиве, чтобы получить новый дистрибутив с аналогичными характеристиками. Помещение разных переменных в одну шкалу

Стандартное нормальное распределение → нормальное распределение со средним значением 0 и стандартным отклонением 1

На приведенном выше рисунке стандартное нормальное распределение значений x, которые увеличиваются или уменьшаются на 1, принимается в качестве показателя z. Показатель Z показывает, на сколько стандартных отклонений наблюдение удалено от центра (среднее значение) (например, Z = -2 означает, что наблюдение находится на 2 стандартных отклонения влево, Z = 1,5 означает, что наблюдение находится на 1,5 стандартных отклонения вправо) .

x = точки данных

μ = среднее, σ = стандартное. отклонение (популяция)

1010–1010/20 →0

1030–1010/20→1

990–1010/20→ -1

теперь p (x ‹980), какова вероятность того, что наблюдение находится в области меньше 950, преобразовать в z. p (z ‹-1,5)

чтобы вычислить площадь, нам нужно взглянуть на таблицу z

p(z< -1.5)=0.0668 →p(x<980)=0.0668

T Статистика

Подобно статистике Z, поскольку количество выборок невелико и дисперсия генеральной совокупности неизвестна, дисперсия выборки используется вместо дисперсии генеральной совокупности.

x̅ = точки smaple

μ = среднее, n = общее количество баллов

s = стандартное отклонение (образец)

Центральная предельная теорема

Независимо от основного распределения, выборочное распределение будет приближаться к нормальному распределению. Пробы отбираются с заменой из популяции.

Исходное распределение → среднее значение = μ, дисперсия = σ2

Выборочное распределение → среднее значение = μ, дисперсия = σ² / n, где n - количество выборок, взятых из совокупности n, должно быть больше 30. Стандартная ошибка определяется как √σ2 / n (стандартная ошибка уменьшается с увеличением n)

Доверительный интервал

Вместо того чтобы говорить, что среднее значение составляет 22,50 (точечная оценка), можно сказать, что среднее значение находится в диапазоне от 20 до 25 (доверительный интервал). Доверительный интервал количественно определяет неопределенность оцениваемой переменной совокупности, такой как среднее значение или стандартное отклонение.

уровень уверенности

Доверие 90% → α = 10%

95% достоверность → α = 5%

99% достоверности → α = 1%

более низкий уровень достоверности обеспечивает более широкий интервал, уровень достоверности 90% указывает на то, что существует вероятность 90%, что значение точечной оценки находится между интервалом. Формула для нахождения доверительного интервала дается следующим образом

[Точечная оценка ± коэффициент надежности × стандартная ошибка]

коэффициент надежности = Z (α / 2), если дисперсия генеральной совокупности известна, если не T (DOF, α / 2) (DOF Degree of Freedom ((количество строк) * (количество столбцов)) - 1)

Доверительный интервал для одной выборки

Например, предположим, что данные с 50 образцами со средним значением 70 и стандартным отклонением 20 при уровне достоверности 95%.

коэффициент надежности (Zα / 2) α = 5% → 0,05 / 2 = 0,025

Z 0,025 = 1,96 (Z-таблица) (1–0,025 = 0,975)

для 0,975 в z-таблице 1,9 + 0,06

Z0.025=1.96

Стандартная ошибка = 20 / √50 = 2,828, 2,828 × 1,96 = 5,542

ДИ = [70 ± 5,542] → [75,572,64,458] при уровне достоверности 95%

Гипотеза будет статистически значимой, если доверительный интервал не включает значение нулевой гипотезы.

Доверительный интервал для двух популяций

Две выборки из соответствующей популяции можно разделить на следующие категории:

  1. Зависимые: обе выборки являются зависимыми, например, оценка программы обучения берет предварительные и послетестовые баллы от одной и той же группы людей.
  2. Независимые: обе выборки независимы, например, случайная выборка из 100 женщин и другая случайная выборка из 100 мужчин. В результате получатся два независимых друг от друга образца.

Независимые образцы можно разделить на 3.

  1. Две выборки с известной дисперсией генеральной совокупности
  2. Две выборки с неизвестной дисперсией совокупности, но предполагаемые равными
  3. Две выборки с неизвестной дисперсией совокупности, но предполагается, что они не равны

Зависимые образцы

CI = Xd ± z (α / 2) × σ / √n (Xd = среднее значение разницы двух выборок, z = коэффициент надежности, σ / √n = стандартная ошибка)

CI = Xd ± t (DOF, α / 2) × s / √n-1 (если выборка меньше 30, то для коэффициента надежности используется t-статистика вместо z-статистики)

например, сравнить систолическое артериальное давление до и после тренировки

принять нулевую гипотезу: разница двух средних равна 0

  1. Найдена разница в 2 значения
  2. рассчитывается среднее значение разницы (Xd)
  3. Тогда разность Xd и среднее значение разности X̅d
  4. Xd=-81/10 →-8.1

5. σ = 1848,9 / 14 (σ для выборки, деленной на n-1, для совокупности, деленной на n)

6. стандартная ошибка = 34,08

7. T-статистика = для 95% достоверности 2,145

8. CI=8.1±2.145×34.08

9. [-81.2 — 65.00]

Поскольку значение нулевой гипотезы находится в доверительном интервале, мы можем принять нулевую гипотезу о том, что нет статистически значимой разницы между артериальным давлением до и после тренировки.

Независимый образец.

Независимая выборка, известная дисперсия совокупности

Оценки студента инженерного факультета и студента управления. Найдите 95% доверительный интервал для разницы между оценкой студента инженерного факультета и студента факультета менеджмента.

Дисперсия разницы → 1,36

CI=-7±1.96*1.36

CI=[-9.66,-4.34]

95% уверены, что разница в уровне инженерии и менеджмента составляет [-9,66, -4,34], интервал отрицательный, поскольку студенты-инженеры набрали меньше, чем менеджмент, если бы мы рассматривали x̅ как менеджмент, а y̅ как инженер, CI составляет [9,66,4,34] ]

Независимая выборка, неизвестная дисперсия совокупности, но предполагаемая равная

Цена яблок в городах A и B, здесь дисперсия населения не известна, поскольку мы не можем получить цену на яблоки во всем городе, а образцы могут быть собраны только в нескольких магазинах, поэтому дисперсия населения неизвестна и предполагается равной .

Примечание: T-статистика используется в качестве коэффициента надежности, так как нет информации о дисперсии совокупности.

CI=(3.94–3.25)+-2.12√(0.05/10 + 0.05/8)

CI=[0.47,0.92]

Независимая выборка, неизвестная дисперсия совокупности, предполагается, что она не равна

В предыдущем примере вместо сравнения яблок в 2 городах мы можем сравнить яблоки и апельсины в городе. Поскольку мы сравниваем яблоко и апельсин, которые имеют разные цены и спрос, мы не можем предполагать, что дисперсия населения будет одинаковой.

Проверка гипотезы

Гипотеза - это утверждение о параметре населения.

H0: Нулевая гипотеза: идея, подлежащая проверке

H1: Альтернативная гипотеза: идея, противоречащая нулевой гипотезе.

Например, предположим, что средний возраст ученика - 23 года.

H0: μ=23

H1: μ≠23

Уровень значимости → α (вероятность отклонения нулевой гипотезы, если она верна)

Гипотеза проверяется с помощью Z-критерия или T-критерия.

x̅ = выборочное среднее

μ = предполагаемое среднее

σ / √n = стандартная ошибка

Область отклонения нулевой гипотезы

Область отклонения - это интервал, за которым отклоняется нулевая гипотеза.

Двуххвостый тест

H0: μ=23

H1: μ ≠ 23 (альтернативная гипотеза может быть ›или‹ 23)

Тест "одного хвоста"

H0: μ≥23

H1: μ ‹23 (альтернативная гипотеза может‹ 23)

Альтернативная гипотеза решает тест с одним или двумя хвостами, если H1 ≠, тогда это тест с двумя хвостами, если H1 ‹, то это тест с одним хвостом (тест левого хвоста), а если H1›, то он (тест правого хвоста)

e.g.,

пусть средний вес группы составляет 168 фунтов (среднее значение по совокупности) со стандартным значением 3,9 (дисперсия по совокупности). Диетолог считает, что средний вес может быть другим, поэтому она взяла вес 36 человек как 169,5 фунтов. с доверием 95%. Достаточно ли этого, чтобы отбросить средний показатель по 36 группам?

H0: μ=36

H1: μ ≠ 36 (тест с двумя хвостами)

x̅=169.5 , n=36, σ=3.9, μ=168 , α=1–0.95=0.05

Zc (критические значения) = Zα / 2 → Z0,025 → 1,96 (значение, взятое из Z-таблицы) и -1,96, поскольку двуххвостовой

Z (Статистика теста) = (169,5–168) / (3,9 / √36)

Z=2.31

Есть два способа проверить, принята или отклонена нулевая гипотеза.

  1. -Zc ‹Z‹ Zc с 2.307-1.96 перешло в область отклонения, тем самым отвергнув нулевую гипотезу.
  2. P value = P-value говорит нам, маловероятно, что мы наблюдали бы такую ​​статистику теста в направлении H1, если бы нулевая гипотеза была верна. Таким образом, если P-значение ‹α, то нулевая гипотеза отклоняется, если P-value› α, нулевая гипотеза принимается.

Значение P для теста с одним хвостом

  1. тест левого хвоста P = (значение площади Z (статистика теста))
  2. тест правого хвоста p = 1- (значение площади Z (статистика теста))

Значение P для теста с двумя хвостами

  1. Для теста с двумя хвостами, если (значение площади Z) равно ‹0,5, то P = 2 × (значение площади Z)
  2. Если (значение площади Z) составляет ›0,5, то P = ((1- (значение площади Z)) × 2

значение площади Z → в приведенном выше примере Z = 2,31

Значение площади Z = 2,31 составляет 0,9896.

Так как это тест с двумя хвостами и 0,9896 0,5

P=((1–0.9896))×2=0.0208

0.0208<0.05(α)

H0 отклоняется

Если дисперсия генеральной совокупности неизвестна, то в приведенном выше примере используется T-статистика вместо Z-статистики. Если дисперсия генеральной совокупности неизвестна, используется стандартное отклонение выборки. Предположим, что стандартное отклонение выборки = 3

H0: μ=36

H1: μ ≠ 36 (тест с двумя хвостами)

x̅=169.5 , n=36, s=3, μ=168 , α=1–0.95=0.05

T= (169.5–168)/(3/√36)=3

DOF = 36–1 = 35

α=0.05

Двуххвостый тест

Tc=-1.697–1.697

T ›Tc, следовательно, H0 отклоняется

Проверка гипотез для множественной совокупности

P-значение

P-значение - это вероятность того, что случайным образом сгенерированы данные или что-то такое же или даже более редкое.

Например, если подбросить две монеты, выпала голова, имеет ли монета какое-то преимущество для головы?

H0: без разницы в монетах, вероятно, для 3-го ивента

H1: Вероятность получить голову ›

бросая 2 монеты {HH, HT, TH, TT}

вероятность выпадения двух орлов = 0,25

P-значение 2 голов = 3 части для расчета P-значения

  1. вероятность события {H, H} = 0,25
  2. событие с аналогичной вероятностью = {T, T} = 0,25
  3. событие с большей вероятностью, чем событие, мы находим P-значение для = 0, поскольку нет события с вероятностью ›0,25

P-значение {H, H} = 0,25 + 0,25 + 0 = 0,5

P-Value для распределения

Как решить, отвергнуть или принять нулевую гипотезу

Критический региональный подход

Область отклонения - это область под кривой (конец, где нулевая гипотеза не является вероятной). Точка Zc - это точка разделения, которая разделяет принятую область и область отклонения. Значение Zc или область отклонения зависит от α (уровень значимости) α, равного 0,05, что указывает на то, что область 0,05 ближе к концу является незначительной. Точно так же 0,10 указывает на то, что область 0,10 до конца незначительна. Zc находится с помощью таблицы распределения Z или T, другой таблицы для левого и правого хвоста.

Z - стандартизованная статистика теста. Если он пересекает Zc или находится в области отклонения, нулевая гипотеза отклоняется.

Односторонний тест

  1. Левый хвост: критическое значение (α = 0,05 (площадь), затем Zc (0,05) = 0,05 → -1,645, поэтому, если Z ‹Zc, отвергните нулевую гипотезу
  2. Правый хвост: два способа найти Zc. 1) Найдите Zc для левого хвоста из-за симметрии Zc для правого будет таким же, как Zc для левого со знаком + ve или 2) Zc (0,05) = 1–0,05 = 0,975 → 1,96

Двусторонний тест

Поскольку это двуххвостый тест, область отклонения будет составлять α / 2 для левой стороны и α / 2 для правой стороны для расчета Zc для α, равного 0,05, для левой стороны Zc (0,025) → -1,96, поскольку нормальное распределение симметрично Zc (0,025) для правой части → 1,96, чтобы принять нулевую гипотезу -Zc ‹Z‹ Zc

P-значение

Вероятность получения результата, по крайней мере, такого же экстремального, как и текущий, при условии, что null истинно. Проще говоря, P-значение указывает, насколько вероятно получение такого результата, если нулевая гипотеза верна.

Давайте возьмем данные о популяции с μ = 70, теперь вы хотите проверить, действительно ли μ равно 70 или (‹,›, ≠), мы не можем проверить каждое наблюдение во всей совокупности. Следовательно, мы берем образец, скажем, образец s1. Теперь предположим, что когда s1 отбирается и вычисляется, он показывает параметр, аналогичный параметру данных о населении, который равен μs1 = 70.

Теперь P-значение говорит о вероятности получения другого образца, который имеет характеристики, аналогичные s1. Оставим значение P равным 0,18. Это говорит о том, что у нас есть 18% шанс получить еще один образец s2 с характеристиками, аналогичными s1.

P-значение может варьироваться от 0% до 100%, P-значение само по себе не может сказать много, например, P = 0,18 - это 18% -ный шанс, а P = 0,50 - 50% -ный шанс. Здесь мы сравниваем P-Value с уровень значимости α. Если P ‹α, то вероятность получения той же выборки меньше 5%, а если P› α, то принимается нулевая гипотеза.

Спасибо за чтение

использованная литература



Картинки → Google