Всякий раз, когда человеческий разум читает какие-то данные, он всегда анализирует распределение и пытается найти закономерности, чтобы понять данные, распределенные соответствующим образом. Отсюда следует статистика!

Статистика - это часть науки, она объясняет сбор, анализ, интерпретацию и представление данных. В анализе данных есть две категории методов: Описательная статистика и Выводная статистика. Описательная статистика также известна как сводная статистика, которая суммирует данные в виде гистограмм, диаграмм или таблиц. С другой стороны, логическая статистика направлена ​​на то, чтобы сделать некоторые выводы о дополнительной генеральной совокупности с помощью выборочного набора данных. У обоих методов есть свои плюсы и минусы, о которых вы узнаете ниже. Такого идеального метода описания или вывода данных не существует.

Прежде чем идти дальше, давайте разберемся с некоторыми модными словами:
Население: популяция состоит из слишком большого количества людей, чтобы изучать или исследовать с удобством.

Выборка. Выборка - это подмножество генеральной совокупности, которое содержит большую часть информации о генеральной совокупности, чтобы можно было сделать выводы по выборке для этой генеральной совокупности.

Описательная статистика

Описательная статистика помогает подвести итоги и построить график для данных группы. В этом методе возьмите случайную группу, которую мы хотим изучить, и затем используйте сводную статистику, такую ​​как Среднее, Медиана, Режим и Графики, чтобы представить свойства группы. Нет степени неопределенности, потому что мы просто вычисляем среднее значение или представляем заданные данные. Эта процедура позволяет нам получить больше информации и визуализировать данные.

Инструменты для описательной статистики:

  1. Центральная тенденция: поиск сути (центра) данных (среднего, медианного, мода)
  2. Дисперсия: насколько далеко наши данные находятся от центра (диапазон, стандартное отклонение).
  3. Асимметрия: распределение данных симметрично или нет (гистограммы, линейные графики).

Предположим; нам интересно узнать любимые цвета автомобилей для разных возрастных групп и полов. Итак, у нас есть некоторые групповые данные для нашего любопытства.

Как мы видели, наши данные Excel представлены в виде диаграмм и гистограмм, поэтому мы можем резюмировать, что в основном белые и черные автомобили представлены на рынке для этой конкретной группы. То есть нет уровня неопределенности, потому что мы использовали только данные данные и визуализировали их понятно.

Выведенный статистика

Для вывода статистики в качестве выборки используются данные из более широкой совокупности. Основная цель этого метода - сделать выводы из выборки и обобщить их для большей совокупности. Следовательно, нам нужно найти образец таким образом, чтобы он мог правильно отражать совокупность. Существует слишком много способов выбора выборки из совокупности, но в целом случайная выборка позволяет нам быть уверенными в том, что выборка представляет собой совокупность.

В большинстве случаев невозможно измерить или понять всю популяцию; в этом случае нас спасает выборка. Следовательно, маловероятно, что значения равны, когда мы пытаемся оценить свойства совокупности по выборке.

Инструменты для вывода статистики:

  1. Проверка гипотез. Задайте вопросы о сравнении выборки и генеральной совокупности.
  2. Доверительный интервал: создает диапазон; фактическая численность населения находится в пределах.
  3. Регрессионный анализ: определяет наблюдаемую взаимосвязь между образцами, представленными в генеральной совокупности.

Теперь предположим, что мы хотим увеличить нашу группу до уровня страны, чтобы узнать любимые цвета автомобилей. Так что количественно проанализировать совокупные данные будет практически невозможно. Поэтому мы выбираем случайную выборку из генеральной совокупности, которая представляет собой данные по всей стране, а затем выдвигаем некоторую гипотезу, например: «Является ли процент белых автомобилей в популяции больше, чем процент белых автомобилей в выборке?», а также мы делаем интервал или диапазон значений из гипотезы и выясняем, насколько мы уверены, что значение нашей случайной выборки попадет в этот диапазон? Следовательно, мы вычисляем или оцениваем доверительный интервал, который дает нам уверенность в нашем образце.

Надеюсь, у вас есть обзор методов статистики. Следите за обновлениями. Чао!