Статистика науки о данных: меры центральной тенденции [объяснение и код на R и Python]

Меры Центральной тенденции также называют Первым моментом делового решения.

Для начала хотелось бы пояснить, почему это важно. Хотя сначала мы получаем набор данных для работы, мы обычно проверяем, какие функции набора данных важны для нас и являются ли они числовыми или категориальными.

При анализе числового набора данных (или некоторых характеристик набора данных, которые являются числовыми) наиболее распространенным методом является проверка, где находится центр данных.

Примечание. Функции означает столбцы нашего набора данных.

Есть 3 разных способа проверить центр наших данных:

Значит
Медиана
Режим

Выбранный метод может сильно повлиять на понимание, которое люди извлекут из данных

Значит

Среднее (также известное как среднее) - это среднее значение всех чисел в соответствующей функции нашего набора данных.

Формула: x_bar = (Σ xi) / n

Ниже приведены шаги, которые необходимо выполнить для расчета среднего значения:

Просуммируйте все числа в наборе данных.
Разделите на общее количество чисел в наборе данных n.

По мере того, как вы добавляете больше точек, среднее значение всегда меняется и всегда зависит от каждой точки. Поэтому, когда дело доходит до измерения центра, не рекомендуется полагаться исключительно на среднее значение, поскольку оно не отражает всей истории и в некоторых случаях может вводить в заблуждение. Выбросы сильно влияют на значение среднего.

Выбросы: значения в наборе данных, которые сильно отличаются от значений в данных и не представляют набор данных, и их можно пропустить, так как они не помогают в выводе информации из данных.

Например, рассмотрим следующий набор данных:

1,4,4,5,6,3,2,1,3,5

Среднее значение приведенного выше набора данных: (1 + 4 + 4 + 5 + 6 + 3 + 2 + 1 + 3 + 5) / 10 = 3,4

Теперь давайте добавим к этому выброс: предположим, мы добавляем 20 в этот набор данных.

1,4,4,5,6,3,2,1,3,5,20

Среднее значение приведенного выше набора данных: (1 + 4 + 4 + 5 + 6 + 3 + 2 + 1 + 3 + 5 + 20) / 11 = 4,9

Как мы видим, простое добавление одного выброса вызвало такой резкий сдвиг в среднем. Итак, теперь мы можем представить, как выбросы могут повлиять на набор данных.

Как, среднее зависит от выбросов. Как правило, не рекомендуется прибегать только к среднему значению для понимания данных или каких-либо выводов о данных.

Давайте код сейчас.

Python:

def mean (x):
return sum (x) / len (x)
x = [1,2,3,4,5]
mean (x)

Выход: 3.0

R :

a = c (57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85)
среднее (a)

Выход: 67.78947

Медиана

Медиана набора данных - это позиция, в которой он делит набор данных пополам, при условии, что данные упорядочены в порядке возрастания.

Обозначается буквой M или x_bar.

Ниже приведены шаги, которые необходимо выполнить для расчета медианы:

Расположите числа в порядке возрастания от наименьшего к наибольшему.
Если общее количество чисел в наборе данных нечетное, то число точно посередине является медианой.
Если общее количество чисел в наборе данных четное, возьмите два числа, которые находятся точно посередине, и усредните их, чтобы найти медиану.

Многие аналитики всегда отдают предпочтение медиане, поскольку она более точно отображает центр доступных данных.

Например, рассмотрим следующий набор данных:

5,3,2,1

Шаг 1: Закажите их: 1,2,3,5

Теперь, когда в наборе данных четное количество чисел, переходите к шагу 3.

Шаг 3: (2 + 3) / 2 = 2,5

Рассмотрим пример нечетного количества значений в наборе данных:

3,1,4,2,5

Шаг 1: Закажите их: 1,2,3,4,5

Шаг 2: Среднее значение: 3, что является средним значением.

Итак, что вы должны использовать в качестве меры центра? Среднее или медианное?

Это полностью варьируется от случая к случаю, но сообщить и то, и другое всегда удобно.

Давайте теперь код:

Python:

def median (v):
«» »находит« самое среднее »значение v» »»
n = len (v)
sorted_v = sorted (v)
midpoint = n // 2
если n% 2 == 1:
# если нечетное, вернуть среднее значение
return sorted_v [midpoint]
else:
# если даже, вернуть среднее значение средних значений
lo = midpoint - 1
hi = midpoint
return (sorted_v [lo] + sorted_v [hi]) / 2

x = [1,2,3,4,5]
медиана (x)

Выход: 3.0

R :

a = c(57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85)

медиана (а)

Выход: 66

Режим

Режим набора данных - это число, которое чаще всего встречается в наборе данных.

Ниже приведены шаги, которые необходимо выполнить для режима расчета:

Шаг 1. Рассчитайте частоту появления каждого значения в наборе данных.

Шаг 2: Mode - это значение с самой высокой частотой.

Режим используется гораздо реже.

Давайте теперь код:

Python

def mode (x):
«» »возвращает список, может быть более одного режима» »»
counts = Counter (x)
max_count = max (counts.values ())
return [x_i for x_i, count in counts.iteritems ()
if count == max_count]

Статистика науки о данных: меры центральной тенденции [объяснение и код на R и Python]

Значит

def mean (x):
return sum (x) / len (x)
x = [1,2,3,4,5]
mean (x)

Выход: 3.0

a = c (57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85)
среднее (a)

Выход: 67.78947

Медиана

x = [1,2,3,4,5]
медиана (x)

Выход: 3.0

a = c(57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85)

медиана (а)

Выход: 66

Режим

def mode (x):
«» »возвращает список, может быть более одного режима» »»
counts = Counter (x)
max_count = max (counts.values ())
return [x_i for x_i, count in counts.iteritems ()
if count == max_count]

x = [57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85]

режим (x)

Выход: 63.0

Режим ‹- функция (x) {
ux‹ - уникальный (x)
ux [which.max (tabulate (match (x, ux)))]
}

a = c(57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85)

Режим (а)

Выход: 63

Статистика науки о данных: меры центральной тенденции [объяснение и код на R и Python]

Значит

def mean (x): return sum (x) / len (x) x = [1,2,3,4,5] mean (x)

Выход: 3.0

a = c (57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85) среднее (a)

Выход: 67.78947

Медиана

x = [1,2,3,4,5] медиана (x)

Выход: 3.0

a = c(57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85)

медиана (а)

Выход: 66

Режим

def mode (x): «» »возвращает список, может быть более одного режима» »» counts = Counter (x) max_count = max (counts.values ​​()) return [x_i for x_i, count in counts.iteritems () if count == max_count]

x = [57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85]

режим (x)

Выход: 63.0

Режим ‹- функция (x) {ux‹ - уникальный (x) ux [which.max (tabulate (match (x, ux)))] }

a = c(57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85)

Режим (а)

Выход: 63

Вопросы по теме

def mean (x):
return sum (x) / len (x)
x = [1,2,3,4,5]
mean (x)

a = c (57,61,65,63,63,64,64,65,63,67,66,71,75,67,67,70,74,81,85)
среднее (a)

x = [1,2,3,4,5]
медиана (x)

def mode (x):
«» »возвращает список, может быть более одного режима» »»
counts = Counter (x)
max_count = max (counts.values ())
return [x_i for x_i, count in counts.iteritems ()
if count == max_count]

Режим ‹- функция (x) {
ux‹ - уникальный (x)
ux [which.max (tabulate (match (x, ux)))]
}