Яразделил полные статистические данные, необходимые для науки о данных, на несколько частей. В этой части я буду обсуждать различные типы выводной и описательной статистики с населением и выборкой.
Статистика:
Статистика — это наука о сборе, организации и анализе данных для лучшего принятия решений.
Это помогает нам идеально использовать данные.
Данные
Элементы информации, которые можно измерить.
Существует два типа статистики:
- Описательная статистика
- Выведенный статистика
1. Описательная статистика
Это процесс организации и обобщения данных.
2. Логическая статистика
Это метод, при котором мы используем данные, которые мы измерили, чтобы сделать выводы.
Прежде чем перейти к более глубокому пониманию описательной и логической статистики, нам нужно знать несколько важных концепций, которые будут обсуждаться ниже.
Население (N) и выборка (n)
(N) и (n) являются наиболее важными темами при проведении статистического анализа.
Население (N)
- Все жители страны будут составлять набор населения.
- Все сотрудники в офисе будут Населением
Образец (n)
- Все жители, живущие за чертой бедности, попадут в Образец.
- Из всех сотрудников все менеджеры в офисе будут образцом.
Существуют различные методы выборки
1. Простая случайная выборка:
При этом каждый член населения (N) имеет равные шансы быть выбранным для вашей выборки (n).
2. Стратифицированная выборка:
В этом процессе население (N) разбивается на непересекающиеся группы (страты).
Пример 1: Пол будет иметь мужской и женский пол в соответствии с тем, что у мужчин будет отдельная группа образцов, а у женщин будет отдельная группа образцов.
Пример 2: в зависимости от возраста (0–10), (10–20), (20–30), (30–40), где все эти группы не пересекаются.
3. Систематическая выборка:
Во всей популяции (N) мы систематически выбираем выборку (n).
Население (N) → n-й человек
Например:опрос торгового центра о случайном тесте на коронавирус.
Каждый 1-й человек → случайный тест на ковид
Каждый 5-й человек → случайный тест на ковид, здесь мы отбираем их систематически.
4. Удобная выборка:
В этом методе выборки мы проведем опрос по определенной теме, основанный на знании предметной области или интересе.
Например: мы проводим опрос в отрасли Data Science. поэтому здесь мы будем опрашивать только людей, которые разбираются в науке о данных.
Например: Stackoverflow: будет опрашивать только разработчиков.
Переменные:
Переменная — это свойство, которое может принимать любое значение.
Например: рост {182, 172, 190} или вес {78, 77,8, 98}.
Есть 2 вида переменных
- Количественные переменные
- Качественные переменные или категориальные переменные
- Количественные переменные
Его можно измерить численно.
Например: возраст, вес, рост
Существует 2 типа количественных переменных
I) Количественная дискретная переменная: она будет содержать целые числа.
Пример 1: количество банковских счетов (1,2,3,4), мы не можем иметь половинный банковский счет
Пример 2: общее количество детей (1,2,3)
II) Количественная непрерывная переменная:она будет содержать целые числа, а также числа с плавающей запятой.
Пример 1: рост = 172, 173, 178,5 или вес = 80, 88, 78,7, 87,8
Некоторые вопросы?
- Что за переменная длина песни?
- Что за переменная высота автомобиля?
- Что за переменный размер обуви?
- Что за переменный пол?
2. Качественные переменные или категориальные переменные
Данные должны быть преобразованы в числовой формат.
Пример 1: Пол → Мужской, Женский
В следующей части я буду обсуждать описательную статистику по каждой теме, которую я упомянул в изображении описательной статистики.
Вы можете связаться со мной в LinkedIn, и если вам нравится контент, пожалуйста, поделитесь им иподпишитесь на меня в Medium
Код или соответствующие примечания будут загружены на мой GitHub