Статистика, Редакция, Программирование

Описательная статистика для принятия решений на основе данных с помощью Python

В этой статье представлен образец нашей книги: «Описательная статистика для принятия решений на основе данных с помощью Python».

Автор (ы): Пратик Шукла, Роберто Ириондо

Последнее обновление: 19 июля 2021 г.



Наука о данных и машинное обучение - это научные дисциплины, в которых правят программирование и математика. В настоящее время большинство корпораций по всему миру генерируют огромные объемы данных, которые могут быть проанализированы и визуализированы экспертами для понимания тенденций и прогнозирования прогнозов. Например, мы можем выполнить точную визуализацию данных только в том случае, если наши данные ясны и понятны.

Однако данные организаций (часто) слишком беспорядочные, чтобы с ними можно было возиться, поэтому поиск структур и важных закономерностей в данных является важной задачей для науки о данных. Статистика предоставляет методы и инструменты для поиска скрытых структур и закономерностей в данных, чтобы специалисты могли делать на их основе прогнозы, что делает статистику наиболее фундаментальным шагом в области науки о данных и машинного обучения. Нам нужна статистика, чтобы преобразовывать наблюдения в информацию. В машинном обучении мы используем различные алгоритмы для прогнозирования, классификации и кластеризации. Хотя существует множество полезных библиотек, которые будут выполнять за нас математические вычисления.

Тем не менее, нам необходимо знать математику, лежащую в основе каждого из используемых нами алгоритмов и статистических методов. Знание этого дает нам представление о том, что мы делаем, и, в конечном итоге, мы понимаем, почему мы принимаем решения, основанные на данных.

Эта работа направлена ​​на понимание основных концепций, которые составляют основу науки о данных, машинного обучения и связанных аналитических областей. Наша основная цель - показать нашим читателям, как проводить расчеты и зачем нам такая методика. В этой книге мы изо всех сил стараемся продемонстрировать несколько основных статистических методов с их теориями и примерами кода на Python.

Обратите внимание, что в некоторых случаях выходные данные программ Python могут отличаться от выходных данных, которые мы получаем, применяя теоретические концепции - причина в том, что мы будем использовать библиотеки Python для отображения выходных данных. В некоторых случаях программисты, создававшие такие библиотеки, использовали другую логику для создания своих методов. Следовательно, мы считаем важным понять основную логику того, что мы объясняем в теоретических концепциях. Как только мы поймем концепцию, относительно легко написать псевдокод и код для решения поставленной задачи.



«Тихие статистики изменили наш мир; не открывая новые факты или технические разработки, а изменяя способы, которыми мы рассуждаем, экспериментируем и формируем наши мнения… »~ Иэн Хакинг

Вступление

В этой работе мы собираемся взглянуть на описательную статистику. Однако, прежде чем переходить к статистике, очень важно знать основные вещи, которые нам понадобятся. Прежде всего, статистика работает с данными. Если у нас нет данных, значит, статистика не работает. Мы используем данные для выполнения с ними различных операций, чтобы сделать из них полезные выводы.

Тем не менее, иногда невозможно собрать данные обо всех, кто имеет отношение к исследованию. Например: если мы хотим измерить вес всех людей на Земле, будет невозможно получить данные обо всех людях. Вот почему мы берем образцы данных, а затем выполняем с ними операции.

Прежде всего, мы увидим генеральную совокупность и выборку, а затем обсудим несколько методов выборки.

Население и выборка:

При изучении статистики наше основное внимание уделяется данным. Давайте посмотрим на два важных типа наборов данных:

  1. численность населения
  2. Образец

Основное различие между совокупностью и выборкой можно увидеть по количеству наблюдений в каждом наборе данных.

Население включает в себя все элементы или наблюдения, связанные с нашим исследованием. Население обычно обозначается (N), а числа, которые мы получаем при работе с совокупностью, называются параметрами.

Выборка включает одно или несколько наблюдений от популяции. Образцы обычно обозначаются (n), а

числа, полученные при работе с образцами, называются статистикой. Теперь существует несколько методов получения выборки из совокупности. В этой книге мы увидим некоторые из них.

Методы отбора проб:

Методы вероятностной выборки:

Когда у каждого субъекта или объекта есть равные, ненулевые шансы быть отобранными для выборки, это называется методом вероятностной выборки. Эти образцы обычно представляют большую популяцию. Они обеспечивают достоверные результаты, поскольку вероятность систематической ошибки при выборке невысока.

Простая случайная выборка

В этом методе каждый человек из популяции выбирается псевдослучайно, и каждый член популяции имеет равную вероятность быть выбранным. Другими словами, мы можем сказать, что каждый член от всего населения имеет равные шансы быть избранным. Простая случайная выборка будет беспристрастным представлением всего населения.

Например:

Допустим, мы хотим случайным образом выбрать 10 студентов из группы из 10000 студентов. Прежде всего, нам нужно присвоить каждому студенту ярлыки. Так как студентов 10000, метки будут начинаться с 0 и заканчиваться цифрой 9999. Вот визуальное представление помеченных студентов.

Теперь мы будем использовать простую случайную выборку, чтобы выбрать 10 случайных студентов из 10 000 студентов. Для этого мы будем использовать 4 коробки, и в каждой из коробок будут шарики, помеченные от 0 до 9. Имейте в виду, что все коробки непрозрачные или непрозрачные. Таким образом, у каждого из учеников будут равные шансы.

Далее мы позвоним маленького ребенка и попросим его нарисовать по мячу из каждой коробки. Теперь запишем число, напечатанное на шаре. Например, если ребенок вытягивает мяч с меткой два из первого ящика, шар с меткой пять из второго ящика, шар с меткой девять из третьего ящика и шар с меткой 0 из четвертого ящика, тогда мы выберет студента с меткой 2590.

Мы будем повторять тот же процесс, пока не получим ярлыки для десяти студентов. После того, как числа будут записаны, шары будут заменены в исходные коробки. Таким образом, в любой момент времени на выбор будет десять мячей. Теперь вот список учеников, выбранных ребенком.

Это один из способов выбрать случайных студентов из всех студентов. Теперь обратите внимание, что в этом случае мы заменили шары в соответствующих коробках. Далее мы увидим еще один способ реализации простой случайной выборки. Однако здесь мы обойдемся без замены. Таким образом, в этом методе мы будем записывать каждое число в карточку и помещать эти карточки в одну большую коробку, а затем извлекать из нее 10 карточек. Теперь нам не нужно класть эти фишки обратно в коробку. Так что это без замены.

Преимущества:

  1. Простая случайная выборка снижает смещение выборки.
  2. Удобство использования.

Недостатки:

  1. Это требует небольших знаний населения.
  2. Это может привести к ошибкам выборки.
  3. Он не подходит для большого населения.

Например, если мы проводим опрос среди 10 000 студентов, чтобы выяснить, сколько из них студентов-левшей. Если мы возьмем выборку из 50 студентов, ни один из студентов-левшей не может быть выбран. Так что это существенный недостаток этого метода.

Систематическая выборка

В этом методе мы собираемся отбирать людей через равные промежутки времени. Мы можем создать интервал любого размера, какой захотим, но он должен соответствовать размеру выборки. Обычно он используется, когда мнения большинства людей логически однородны.

Например:

Допустим, у нас 50 студентов, и мы хотим выбрать из них несколько выборок. Для этого, прежде всего, нам нужно определиться с начальной точкой. Мы можем решить это, бросив кубик. Теперь, когда у нас есть начальная точка, пора определить интервал. Для размера интервала мы можем выбрать каждого четвертого человека из числа студентов. Обратите внимание, что мы можем выбрать любой размер интервала, но он должен соответствовать размеру нашей выборки.

Здесь мы начнем со второго ученика, а после этого мы выберем каждого четвертого ученика. Вот образец отобранных студентов.

Преимущества:

  1. Это удобнее, чем простая случайная выборка.
  2. Легко управлять.

Недостатки:

1. Он дает предвзятые результаты, если в аранжировке присутствуют какие-либо скрытые закономерности.

Например, предположим, что мы хотим измерить средний вес студентов. Для этого из 50 студентов мы выберем несколько студентов случайным образом. Допустим, мы выбрали студентов на основе наших предыдущих расчетов.

Вот представление отобранных студентов:

Здесь мы видим, что все отобранные студенты - девушки. Таким образом, наша выборка смещена в сторону студенток. Более того, мы можем сказать, что это не даст нам мнения всего населения. Чтобы избавиться от этой проблемы, мы можем перетасовать совокупность внутренне перед взятием образцов.

Стратифицированная выборка

В этом методе мы сначала разделим все население на группы на основе определенных характеристик. Обычно мы используем этот метод, когда думаем, что будут различия во мнениях, основанных на определенных характеристиках, таких как возраст, пол или раса. Итак, что мы делаем здесь, мы разделяем совокупность на подгруппы, а затем мы будем использовать простую случайную выборку, чтобы выбрать образцы из каждой из этих групп. Каждая из разделенных групп называется стратой. Делая это, мы можем гарантировать, что не упускаем из виду мнение конкретной группы. Давайте рассмотрим пример, чтобы лучше понять это. Предположим, мы хотим опросить население о недавно запущенной игре. Здесь мы можем думать, что могут быть некоторые различия во мнениях между группами в зависимости от возраста. Итак, мы разделим население на три группы.

  1. Дети (‹18)
  2. Взрослые (18+ и ‹65)
  3. Пожилые (65+)

После разделения их на эти подгруппы мы будем использовать простую случайную выборку, чтобы выбрать образцы из каждой подгруппы.

Теперь, когда мы разделили популяцию на подгруппы, мы можем использовать простую случайную выборку для выбора субъектов из каждой группы.

Преимущества:

1. Это повышает точность и общую репрезентативность всей генеральной совокупности.

Недостатки:

  1. Требовалось знание деления популяции по определенным характеристикам.
  2. Это сложно и требует много времени.

Кластерная выборка

В кластерной выборке мы используем кластеры или подгруппы для выбора образцов. Здесь кластеры образуются естественным образом. Нам не нужно создавать кластеры по определенным характеристикам.

Давайте рассмотрим пример, чтобы лучше понять это. Предположим, мы

хотите получить информацию о весе людей в конкретном городе. А теперь представьте, что в городе четыре улицы. Итак, в этом случае нашим населением будет город или четыре улицы. Здесь мы можем сказать, что у нас есть четыре подгруппы или кластера, основанные на улицах. Теперь выберем один кластер из

4 кластера для сбора необходимой информации. Таким образом, в этом методе мы знаем, что наше население уже разделено на четыре улицы. Итак, здесь мы можем применить случайную выборку, чтобы выбрать одну из четырех улиц города, а затем мы можем получить информацию с этой улицы. Таким образом, мы можем сказать, что этот метод работает поверх простой случайной выборки. Предположим, в городе четыре улицы.

  • Улица А
  • Улица Б
  • Улица C
  • Улица D

Теперь нам просто нужно применить простую случайную выборку, чтобы выбрать 1 из 4 улиц. Вот визуальное представление техники:

Примените простую случайную выборку, чтобы выбрать четыре улицы. Предположим, мы получили улицу B в нашей случайной выборке. Затем мы можем получить необходимую информацию для всех людей с улицы B, которая будет представлять все население.

Преимущества:

  • Если у нас большая географическая область, этот метод очень помогает, потому что легче получить много данных из одного кластера, чем получить немного данных из многих кластеров.

Недостатки:

  • Повышенный риск предвзятости.

Например, в приведенном выше примере, если люди на каждой улице сгруппированы по определенным характеристикам, этот метод даст нам предвзятые результаты. Если их знаки зодиака или раса естественным образом объединяют людей в этом городе, этот метод даст нам необъективные результаты.

Если мы применим простую случайную выборку и получим улицу C, мы ясно увидим, что результат будет смещенным и будет представлять только синие символы.

Методы не вероятностной выборки:

В этих методах образцы или предметы собираются без учета конкретной вероятностной структуры. Здесь можно сказать, что выборка не является полностью случайной. Выборки на самом деле не являются репрезентативными для всего населения.

Удобство отбора проб

Удобная выборка, вероятно, является самым простым методом выборки, потому что выборка или участники отбираются на основе их доступности и желания участвовать. В этом методе результаты подвержены значительному смещению, и это может

не представляют взгляды всего населения. Еще одна вещь, на которую следует обратить внимание, - это то, что выборка может не отражать такие характеристики, как пол или возраст. Обычно он используется для предварительного исследования.

Например:

  1. Обследование друзей.
  2. Обследование людей в торговом центре.
  3. Интернет-опросы.

Визуальное представление удобной выборки:

В представлении выше мы видим, что исследователь (Pratik) выбирает своих друзей и соседей в качестве объектов для своего исследования, поскольку их легко убедить или достичь.

Преимущества:

Это легко и может быть создано быстро.

Недостатки:

Как правило, это плохая репрезентативность всего населения.

Выборка квот

Этот метод представляет собой не вероятностный подход к стратифицированной выборке. Здесь мы должны разделить всю популяцию на кластеры по некоторым характеристикам. После разделения населения на кластеры мы можем взять любого человека из групп, когда нам будет удобно. Темы не будут выбираться случайным образом. Мы также можем изначально установить значение квоты, чтобы выбрать желаемое количество субъектов из каждой группы. Например, предположим, что мы хотим выбрать нескольких кандидатов для собеседования, и нам нужно выбрать 10 мужчин и 10 женщин из совокупности. Итак, что мы можем сделать, так это сгруппировать популяцию по полу, а затем выбрать любые 10 мужчин и 10 женщин по нашему усмотрению. В выборе субъектов после кластеризации нет рандомизации. Ниже представлена ​​визуализация обсуждаемой техники отбора проб:

Образцы:

Здесь мы выберем по два кандидата из обеих групп.

Преимущества:

  • Управлять просто. Это быстро и недорого.
  • При необходимости мы можем учесть численность населения.

Недостатки:

  • Выбор не случаен.

Оценочная выборка

В этом методе исследователь выбирает своих испытуемых или участников на основе своего суждения или интуиции. Исследователь может специально выбрать группу людей с определенными характеристиками. Исследователь может выбирать только участниц женского пола. Таким образом, мы можем сказать, что этот метод может быть необъективным, исходя из суждения исследователя. Используя этот метод, исследователи могут выбирать только те предметы, которые, по его мнению, идеально подходят для своего исследования. Это может не отражать мнение всего населения.

Вот визуализация обсуждаемой техники.

Образцы

Преимущества:

  1. Это выгодно по времени и по затратам.

Недостатки:

  1. Результаты могут быть необъективными.

Снежный ком

Это не вероятностный метод, когда существующих испытуемых просят назначить другие предметы, которые им наиболее известны. Здесь размер выборки будет расти, как снежный ком. Вот почему это называется отбором снежного кома. Здесь существующие предметы будут набирать другие предметы, и цикл будет продолжаться. Обычно он используется в социологических опросах, где трудно найти предметы с определенными характеристиками. В следующей визуализации мы видим, что сначала у Пратик есть три субъекта, затем субъекты вербуют других и так далее.

Преимущества:

  • Это полезно, когда образцы трудно найти.
  • Бюджетный.
  • Очень актуальные образцы для нашего исследования.

Недостатки:

  • Этот метод зависит от того, какие испытуемые набирают других, поэтому высока вероятность систематической ошибки отбора.

Это работает, только если у субъектов есть другие соответствующие связи.

Что такое статистика?

Согласно Википедии, статистика - это дисциплина, которая касается сбора, организации, анализа, интерпретации и представления данных. Мы также можем сказать, что статистика - это наука о сборе и анализе числовых данных в больших количествах. Можно также сказать, что статистика - это наука и логика.

Важность статистики в науке о данных и машинном обучении

Наука о данных и машинное обучение - это научные дисциплины, в которых преобладают программирование и математика. Большинство информационных корпораций генерируют огромные объемы данных, которые эксперты могут анализировать и визуализировать, чтобы понять тенденции. Визуализация данных возможна только в том случае, если данные четкие и понятные. Однако данные, сгенерированные

организации слишком беспорядочные, чтобы справиться с ними. Таким образом, мы можем сказать, что поиск структур и основных закономерностей в данных является важной задачей для науки о данных. Статистика предоставляет методы и инструменты для поиска скрытых структур и закономерностей в данных, чтобы эксперты могли делать на их основе прогнозы. Статистика - это фундаментальный шаг в мире науки о данных. Можно сказать, что статистика нужна нам для преобразования наблюдений в информацию. В машинном обучении мы используем различные алгоритмы прогнозирования, классификации и кластеризации. Однако существует множество полезных библиотек, которые будут выполнять за нас математические вычисления. Тем не менее, очень важно знать математику, лежащую в основе каждого из алгоритмов, потому что она дает представление о том, что мы делаем и почему?

Вместо того, чтобы применять к нашим данным крутые алгоритмы машинного обучения, чтобы делать прогнозы, совершенно необходимо понимать закономерность, чтобы знать распределение данных. Как теперь нам поможет распределение данных? Зная распределение данных, мы можем посмотреть на ограничения алгоритмов машинного обучения и применить их, чтобы получить наилучшие результаты. В наших проектах мы используем данные для обучения алгоритма и прогнозирования на его основе. Чтобы обучить модель нашему алгоритму, мы обычно используем язык программирования Python.

Более того, нам хорошо известно, что Python относительно медленнее других языков программирования. Однако простой синтаксис и хорошо развитые библиотеки дают программистам повод склоняться к нему. В реальном мире данные будут в большом количестве, поэтому мы не можем рисковать обучением нашей модели на основе алгоритма, который не дает полезной информации. Вот почему важно понимать распределение данных. В будущей работе мы покажем различные типы распределений данных.

Типы статистики:

Статистику можно разделить на две основные категории.

  • Описательная статистика
  • Выведенный статистика

Описательная статистика:

Описательная статистика в основном работает с организацией и обобщением данных с помощью графиков. Мы можем суммировать данные и визуализировать их с помощью гистограмм, гистограмм и круговых диаграмм.

Мы также можем видеть форму и перекос графиков. Описательная статистика включает меры по поиску значений центральной тенденции, таких как среднее, медиана и мода. Помимо этого, мы также можем найти меру изменчивости или разброса данных с помощью значений диапазона, дисперсии и стандартного отклонения.

Выведенный статистика:

В статистических выводах мы используем данные выборки, чтобы сделать вывод или сделать вывод населения. Он использует вероятность, чтобы узнать достоверность наших прогнозов.

В этой работе мы в основном сосредоточимся на описательной статистике.

Мера центральной тенденции:

Центральная тенденция относится к идее, которая предлагает одно число, которое лучше всего резюмирует весь наш набор данных. Его также можно назвать центром раздачи.

Среднее арифметическое:

Среднее значение можно назвать центральной тенденцией данных. Это единое число, вокруг которого разбросаны наши данные. Короче говоря, мы можем сказать, что это одно число, которое лучше всего представляет весь набор данных.

Среднее или среднее значение набора данных находится путем сложения всех чисел и последующего деления суммы на длину набора данных.

Формула среднего для генеральной совокупности:

Формула среднего для выборки:

Пример:

  1. Найдите среднее значение для следующего набора данных: [5, 8, 15, 18, 25]

Реализация Python:

Средневзвешенное значение:

Когда у нас есть одни и те же числа много раз в некоторых данных, тогда, чтобы найти среднее значение, вместо того, чтобы просто складывать его и затем делить на его длину, мы найдем взвешенную частоту для каждого числа, чтобы наш процесс стал быстрее.

Найдите средневзвешенное значение для следующих данных:

Реализация Python:

Среднее значение для категориального набора данных:

Допустим, мы пошли на выставку домашних животных, в которой участвуют только собаки и кошки. Продвигаясь вперед, мы замечаем, является ли питомец собакой или кошкой. Следующее - последнее наблюдение или данные.

[Собака, кошка, кошка, собака, кошка, кошка, собака, кошка, кошка, собака]

Теперь мы хотим найти среднее значение этого категориального набора данных. Для этого мы должны преобразовать категориальный набор данных в числовой набор данных. Здесь мы обозначаем кошку как 0 и собаку как

1. Итак, вот наш числовой набор данных.

[1,0,0,1,0,0,1,0,0,1]

Теперь мы можем применить нашу обычную формулу среднего:

Теперь мы видим, что среднее значение центрировано в сторону 0. Следовательно, в нашем наборе данных количество кошек больше, чем количество собак.

Среднее геометрическое:

Среднее геометрическое - это корень n-й степени, когда мы умножаем n чисел.

Упрощенно:

Пример:

Найдите среднее геометрическое для [3, 4, 5, 6, 7].

Пример использования:

Обычно он используется, когда мы пытаемся вычислить среднюю скорость роста, когда рост определяется умножением, а не сложением.

Например:

Мои акции Apple выросли на 20% в первый год, 30% во второй год и 40% в третий год. Какова же тогда средняя годовая норма прибыли?

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Мнения, выраженные в этой работе, принадлежат автору (авторам) и не отражают точку зрения какой-либо компании (прямо или косвенно), связанной с автором (ами). Эта книга не претендует на то, чтобы стать конечным продуктом, а скорее отражает текущее мышление, а также является катализатором для обсуждения и улучшения.

Все изображения принадлежат авторам, если не указано иное.

Опубликовано через Навстречу AI

Ресурсы:

Репозиторий Github.

Реализация Google Colab.





Использованная литература:

[1] Все каламбуры и шутки о статистике взяты из журнала Statistics and Statisticians, «Science Jokes: 1. МАТЕМАТИКА: 1.2 СТАТИСТИКИ И СТАТИСТИКИ ». 2021. Jcdverha.Home.Xs4all.Nl. https://jcdverha.home.xs4all.nl/scijokes/1_2.html.

[2] «Процентили и квартили». 2021. Statisticslectures.Com. http://www.statisticslectures.com/topics/percentilequartile/.

[3] 2021. Coursehero.Com. https://www.coursehero.com/file/p3b7kgk/The-variance-is-a-weighted-average-of-the-squared-deviations-from-the-mean/.

[4] «Нормальное распределение данных». 2021. Varsitytutors.Com. https://www.varsitytutors.com/hotmath/hotmath_help/topics/normal-distribution-of-data.

[5] «Асимметрия». 2021. En.Wikipedia.Org. https://en.wikipedia.org/wiki/Skewness.

[6] «Давайте поймем матрицу корреляции и матрицу ковариации». 2020. Средний. https://towardsdatascience.com/let-us-understand-the-correlation-matrix-and-covariance-matrix-d42e6b643c22.

[7] «Ковариация против корреляции | Разница между корреляцией и ковариацией ». 2020. Блог Greatlearning: бесплатные ресурсы, что важно для вашей карьеры !. https://www.mygreatlearning.com/blog/covariance-vs-correlation/.

[8] «Момент (математика)». 2021. En.Wikipedia.Org. https://en.wikipedia.org/wiki/Moment_(mat Mathematics).

[9] «Определение доверительного интервала». 2021. Инвестопедия. https://www.investopedia.com/terms/c/confidenceinterval.asp.

[10] «Нормальное распределение». 2021. En.Wikipedia.Org. https://en.wikipedia.org/wiki/Normal_distribution.

[11] «Эксцесс». 2021. En.Wikipedia.Org. https://en.wikipedia.org/wiki/Kurtosis.

[12] Все диаграммы были созданы с использованием «ПО для создания блок-схем и онлайн-диаграмм». 2021. App.Diagrams.Net. https://app.diagrams.net/.