Я лично планирую узнать о регрессии. Однако я думаю, что мне все еще не хватает знаний о том, что делать с наборами данных. Итак, я думаю, мне лучше перейти к другим темам, посвященным тому, как обрабатывать данные в наборе данных. И сегодня мы поговорим о Bias.

Что такое предвзятость?

Я нашел комикс, который представляет определение предвзятости.

Таким образом, предвзятость — это все, что ведет нас непосредственно к выводу, а не к объективному отношению к данным. Одним из хороших примеров этого является парадокс размера класса. Когда университет заявил, что «студенты будут учиться в среднем в классе до 5 студентов за курс», и, скажем, есть 50 курсов, состоящих из 2 студентов каждый, но есть курс, который состоит из 100 студентов. Если мы попытаемся подсчитать среднее значение: (100 * 1+ 50 * 2)/51, мы получим 3,92!. Что ж, реклама не врала, но данные довольно необъективны.

Иногда предвзятость неизбежна, и, возможно, это не вина самого специалиста по данным. Это может быть случайность при сборе данных или выбросы и т. д. Так что, по крайней мере, как специалист по данным, мы должны понимать о предвзятости, знать, когда мы обнаружили наборы дазасов предвзятости и как с ними обращаться.

Распространенные типы предвзятости

1. Предвзятость подтверждения

Предвзятость подтверждения — это тип предвзятости, подтверждающий ранее существовавшие убеждения. Например, когда первые 5 данных из набора данных имеют сходство, из которого можно что-то сделать, давайте назовем это X. Затем мы проверим 6-е данные, и окажется, что оно все еще похоже на первые 5 данных. Это может привести к предвзятости подтверждения, когда мы делаем выводы на основе этих первых 6 данных, даже если весь набор данных состоит из миллиона данных. Обычно это происходило потому, что данные кажутся нам «правильными».

2. Предвзятость выбора

Смещение выбора обычно происходит, когда данные отбираются субъективно или выбранные данные еще не совсем случайны. Это приводит к предвзятости выбора, когда выбранные данные не представляют данные в целом. Обычно это происходит на опросах. В этом случае в основном есть два фактора: вопросы, как правило, уже субъективны, а также тот, кто заполняет опрос, может быть еще не случайным. Это хороший повод для этого, и, возможно, это также то, что происходит на последних президентских выборах в США.



3. Выбросы

Выбросы — это случаи, когда существует несколько существующих данных, значения которых сильно отличаются от средних данных. Одним из хороших примеров является парадокс размера класса, когда мы можем предположить, что класс со 100 учениками на самом деле является исключением. Скорее всего, такие случаи возникают, когда мы просто берем среднее значение набора данных, а затем не проверяем другие значения, такие как дисперсия, стандартное отклонение, медиана и т. д., где это может помочь нам идентифицировать выбросы.

4. Парадокс Симпсона

Парадокс Симпсона в основном возникает, когда есть скрытые факторы, которые мы не можем идентифицировать, или если новые данные внезапно дают противоположную тенденцию. Это может привести к тому, что связь между переменными исчезнет или даже наоборот.

5. Переоснащение и недооснащение

Переоснащение — это состояние, когда модель улавливает шум данных, а недообучение — это состояние, когда модель не может уловить тренд данных. Переоснащение обычно происходит, когда модель слишком хорошо соответствует данным, обычно это модель, полученная из сложной модели. Наоборот, недообучение обычно происходит, когда модель слишком проста.

6. Предвзятость моделирования

Иногда мы делаем некоторые предположения, когда пытаемся изучить наборы данных. Мы слишком сосредоточены на наших предположениях и будем игнорировать другие факты о самом наборе данных. Это приводит к выбору неправильных переменных, неправильных данных, неправильных алгоритмов и неправильных показателей.

Вывод

Теперь мы знаем, что предвзятость — серьезная проблема в науке о данных. Даже если это неизбежно, это не значит, что мы можем игнорировать это. Мы должны справиться с этой предвзятостью и потратить время на изучение данных. Есть и другие предубеждения, но я думаю, что это самые распространенные. Дайте мне знать, если вы знаете другие распространенные предубеждения, предложения по поводу этой истории или другие ответы. Я хотел бы услышать это!