Почему машинное обучение требует сводной статистики

Как дела, парни! В этой статье мы поговорим о том, почему сводная статистика является неотъемлемой частью любого проекта по машинному обучению. Мы надеемся упростить задачу, предоставив вам список из 4 причин для проведения сводного статистического анализа, прежде чем применять какие-либо модели машинного обучения.

Вторая цель — показать вам, ребята, что хорошо работает при подготовке к развертыванию моделей машинного обучения с точки зрения сводной статистики.

1. В ваших данных есть пробелы

Одна из наиболее распространенных причин, по которой модели машинного обучения могут иметь мало смысла или даже сбивать вас с пути, заключается в том, что у вас слишком много недостающих данных.

Так же, как ситуации, когда у вас беспорядок в комнате, и вы пытаетесь найти свои носки. Скорее всего, вам придется убраться в своей комнате, прежде чем вы заметите их. Выводы из моделей машинного обучения подобны потерянным носкам. Ваши данные должны быть чистыми от всех дыр, чтобы вы могли просматривать их для понимания.

Итак, как быть с отсутствующими данными. К счастью, есть много вариантов. Одни более простые, другие чуть более сложные. Вот некоторые из наиболее широко практикуемых:

Удаление строк данных с отсутствующими значениями
Запуск модели с заменой отсутствующих данных средним или медианным значением (не всегда лучше по разным причинам)
Используйте метод вменения. (Это сложное решение, но его стоит изучить, чтобы улучшить свои навыки работы с данными)

Здорово! Итак, что мы делаем, чтобы проверить недостающие данные? Ну это достаточно просто. Просто проанализируйте сводную статистику, которая должна помочь вам найти отсутствующие значения данных (в первую очередь, подсчитайте количество наблюдений вместе с другими вашими сводными и частотными статистическими данными).

2. Вес и рост более 9000!?

Да, так что помимо хромой ссылки на DBZ оказывается, что большинство естественных данных, которые существуют в дикой природе, имеют такого рода проблемы. Значения могли быть введены неправильно, это могла быть ошибка в программе, которая считывала или преобразовывала данные до того, как они были загружены в источник.

Это может быть буквально что угодно!

Главное, что нужно усвоить здесь, это то, что вы должны обязательно запускать соответствующую сводную статистику, иначе ваша модель машинного обучения в лучшем случае не будет иметь никакого смысла или может чрезмерно преувеличить результаты.

Наличие неправильных значений может привести к тому, что ваш анализ взорвется, и вам, вероятно, придется начать все сначала. Чтобы этого не произошло, лучше всего использовать следующие стратегии:

Запустите сводную и частотную статистику для всего, прежде чем бросить это в модель машинного обучения. (Это включает в себя такие вещи, как максимум, минимум, количество, пропорции, среднее и медиана и т. д.)
Определите, какие значения не имеют смысла. Это требует некоторых исследований и предварительного знания данных. Например, вы не ожидаете, что кто-то будет ростом 9000 футов, но вы можете увидеть, что он весит 6000 унций (375 фунтов). Итог, знайте свои данные и единицы ваших данных, а также шкалу измерений для ваших данных. (Этот второй пункт кажется очевидным, но моделированием легко увлечься, поэтому действуйте осторожно)
Определите, что делать с неправильными значениями. (Вы можете отбросить их или заменить их, как мы упоминали выше)
Третий вариант, который не всегда практичен, состоит в том, чтобы исправить неверное значение данных, если это возможно.

В целом, вы должны проверить сводную статистику (почти всю), прежде чем начинать какой-либо процесс машинного обучения.

3. Ваша модель машинного обучения должна быть пригодной для использования

Итак, в наши дни вы можете точно обработать любой объем данных в алгоритме машинного обучения, чтобы максимизировать прогностическую силу. Здорово! Но в конце концов кто-то должен это использовать и понять.

Даже если вы используете модель только для маркетинговых рекомендаций или просто пытаетесь максимизировать количество потенциальных клиентов. Понимание так называемого «черного ящика» необходимо для разумного развертывания модели машинного обучения.

Если вы говорите о моделях, которые сложным образом учитывают множество переменных, скажем, дерево решений или нейронная сеть, вам необходимо иметь общее представление о том, какие переменные были обработаны. Уловка для этого, конечно же, так же проста, как базовая сводная статистика.

Эта статистика поможет вам:

Поймите возможный диапазон значений, которые были обработаны вашей моделью.
Определите, для какого диапазона значений или категорий действительна ваша модель.
Определите возможные комбинации других переменных, которые не были учтены в ваших данных.
Самое главное: определите любые входные данные, которые представлены чрезмерно или недостаточно. Возьмем известный случай в новостях, который показал, что алгоритму обучения ИИ труднее обнаружить афроамериканцев в самоуправляемых автомобилях. "(Ссылка на сайт)"

Хорошо, хорошо, все они звучат примерно одинаково, но все они указывают на уникальный аспект предвзятости, который может возникнуть, когда вы не имеете хорошего представления об источнике данных для обучения.

Средством, конечно, является сбор обобщаемой выборки, необходимой для вашего конкретного проекта или проблемы. Решение состоит в том, чтобы получить больше правильных данных.

4. Это не те модели, которые вам нужны

Последнее важное замечание, которое мы хотим сделать о проведении тщательного сводного анализа перед началом моделирования ваших данных, — это рассмотреть цель модели.

Звучит очень просто, но помните. Сводная статистика может помочь напомнить себе о целях вашего проекта машинного обучения. Как это так?

Возьмите этот подсписок простых способов, которыми сводная статистика может помочь вам помнить о конечных целях вашего анализа.

Исследуйте отношения между переменными (корреляции и ассоциации)
Разбивка распределения ваших данных (это предотвращает использование неподходящей модели для прогнозирования ваших результатов)
Подобно проверке возможного диапазона допустимых значений, сводная статистика помогает вам увидеть, какие выходные и входные значения имеют смысл, следовательно, помогает вам найти модель с реалистичными входными и выходными данными.

В общем, вы не ошибетесь, когда примените сводную статистику и действительно потратите время, чтобы понять, о чем говорят ваши данные (не пытаясь звучать клише). Мы в The New Statistician рекомендуем вам сначала погрузиться в сводную статистику, чтобы понять ваши данные, прежде чем переходить к каким-либо моделям.

Почему машинное обучение требует сводной статистики

1. В ваших данных есть пробелы

2. Вес и рост более 9000!?

3. Ваша модель машинного обучения должна быть пригодной для использования

4. Это не те модели, которые вам нужны

Вопросы по теме