Основы вероятности и статистики. Часть 2. Изучение категорий статистики.
Центральные тенденции Среднее, Медиана и Мода очень важны, когда речь идет о статистике. Чтобы изучить эти части, перейдите по ссылке ниже:
В этой статье мы будем изучать две широкие категории статистики, которые помогают в анализе данных:
- Описательная статистика
- Выведенный статистика
1. Описательная статистика
Организация и обобщение данных с использованием чисел и графиков. Помогает количественно интерпретировать особенности данных.
Показатели центральной тенденции: среднее, медиана, мода
Показатели разброса: диапазон, стандартное отклонение, дисперсия, межквартильный диапазон
Диапазон.Диапазон — это разница между самым низким и самым высоким значениями.
Диапазон может иногда вводить в заблуждение, когда есть очень высокие или низкие значения.
Дисперсия.В теории вероятностей и статистике дисперсия – это математическое ожидание квадрата отклонения случайной величины от ее среднего значения, и она неформально измеряет, насколько набор (случайных) чисел разбросан по отношению к своему среднему значению. .
Стандартное отклонение.Стандартное отклонение — это статистический показатель, который измеряет дисперсию набора данных относительно его среднего значения и рассчитывается как квадратный корень из дисперсии. Он рассчитывается как квадратный корень дисперсии путем определения вариации между каждой точкой данных относительно среднего значения.
Процентили:
Рассмотрим пример: вы проходите тест и получаете 75-й процентиль. 75-й процентиль говорит нам, что мы справились лучше, чем 75% людей, которые сдавали экзамен.
Квартили — это набор процентилей.
1-й квартиль — 25-й процентиль
2-й квартиль — 50-й процентиль (медиана)
3-й квартиль — 75-й процентиль
Межквартильный размах.Межквартильный размах (IQR) — это мера изменчивости, основанная на разделении набора данных на квартили. Значения, которые делят каждую часть, называются первым, вторым и третьим квартилями; и они обозначаются Q1, Q2 и Q3 соответственно.
Возникает вопрос, зачем нужен InterQuartile Range. Основная идея использования InterQuartile Range состоит в том, чтобы иметь дело с выбросами.
Выбросы.выброс – это наблюдение, которое находится на ненормальном расстоянии от других значений в случайной выборке из совокупности.
Коробчатая диаграмма. Мы используем блочную диаграмму, чтобы узнать выбросы, присутствующие в наборе данных.
2. Выводная статистика
Делать выводы о свойствах населения и предсказывать будущее. Это включает в себя оценку, точечную оценку, доверительные интервалы, тесты гипотез.
Разница между описательной и логической статистикой:
И вот оно. Спасибо за чтение.
Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку здесь.