Что такое стандартизация данных и нормализация данных?

Этот пост - один из многих постов из моего пространства Quora AI Pylinux, где я пишу о вещах, связанных с AI, Python и Linux.

В этом посте мы попытаемся понять термины «Нормализация» и «Стандартизация».

Нормализация:

Это процесс преобразования набора числовых значений в стандартный диапазон значений. Диапазон значений может быть от [-1 до 1], [от 0 до 1], [от 1 до 10] и т. Д. Это станет ясно из следующего примера.

В приведенной выше таблице мы можем найти, что максимальный вес человека составляет 80 кг, а минимальный - 10 кг. Теперь давайте воспользуемся приведенной ниже формулой (min max scaler) и восстановим таблицу.

Используя приведенную выше формулу для нашей таблицы данных, наша таблица преобразуется следующим образом

Теперь из приведенной выше таблицы мы можем найти, что все нормализованные веса находятся в диапазоне от [0 до 1].

Стандартизация:

Стандартизация, также иногда известная как нормализация по z-баллам, - это метод, аналогичный нормализации для изменения масштаба значений, но удовлетворяющий свойству стандартного нормального распределения. Это означает, что после стандартизации среднее значение нашего набора данных будет равно нулю, а стандартное отклонение будет равно 1.

В нашем наборе необработанных данных среднее значение (µ) составляет 54, а стандартное отклонение (σ) составляет 20,955.

После стандартизации наша таблица становится такой, как показано ниже:

Теперь, если мы вычислим среднее и стандартное отклонение для стандартизованных значений в приведенной выше таблице, мы получим среднее значение, равное 0, и стандартное отклонение, равное 1.

Когда мы предполагаем, что наши данные распространяются нормально в соответствии со стандартным нормальным распределением, мы идем на стандартизацию или же мы идем на нормализацию.

Почему нормализация или стандартизация?

Почему мы должны пойти на нормализацию или стандартизацию, потому что мы получаем от них выгоды, такие как коэффициент масштабирования, допустим, мы обрабатываем данные о возрасте и заработной плате, полученной профессионалом. Возрастная переменная останется в пределах 1–100, а заработная плата может варьироваться в пределах 1000–1000000. Если мы будем использовать эти данные без масштабирования, это займет относительно больше времени, чем когда мы масштабируем их, как прекрасно сказано в этой статье с доказательством.

Не забудьте оставить два хлопка, если это вам помогло. :)

С уважением,

Виньеш Катиркамар

AI PyLinux

Что такое стандартизация данных и нормализация данных?

Вопросы по теме