Слова могут говорить сами за себя, но они могут сбивать с толку людей, плохо знакомых с машинным обучением и наукой о данных. В этом блоге я попытаюсь объяснить все, что вам нужно знать о компромиссе смещения и дисперсии. Давайте сначала начнем с определений, а затем углубимся в концепцию.

Что такое предвзятость?

В науке о данных предвзятость — это отклонение от ожидаемого в данных. В более общем плане предвзятость относится к ошибке в данных. Он говорит вам, насколько ваши прогнозы далеки от фактических значений. С математической точки зрения это среднее значение разницы между фактическими значениями и прогнозируемыми значениями. Модель с высоким смещением даст очень низкую точность как для обучающих, так и для тестовых данных.

Что такое дисперсия?

дисперсия — это изменчивость предсказания модели — насколько модель машинного обучения может скорректироваться, когда мы изменим набор данных. В модели с высокой дисперсией модель стремится узнать все из набора обучающих данных. Таким образом, это даст хорошую точность в наборе обучающих данных, но имеет высокий уровень ошибок в тестовых данных.

Что такое компромисс смещения и дисперсии?

Конечная цель любого Data Scientist — создать модель, которая может работать с несколькими наборами данных. Вам нужна обобщенная модель с низким смещением и низкой дисперсией. Это должно дать хорошую точность как для обучающих, так и для тестовых наборов данных. Нам нужно найти правильный/хороший баланс без переобучения и недообучения данных.

Попробуем разобраться в этом с помощью схемы выше. Мы можем видеть, что по мере уменьшения смещения дисперсия увеличивается. По мере того, как это происходит, сложность модели увеличивается, и она имеет тенденцию к чрезмерному соответствию данным поезда. Нам нужна точка, в которой существует баланс между смещением и дисперсией, чтобы модель не соответствовала и не соответствовала набору данных.

Давайте разберемся с этим на примере. Предположим, вам нужно подготовиться к экзамену и вы начинаете подготовку с образцов работ. Таким образом, образцы документов будут вашими данными о поездах, а фактический экзамен будет вашими тестовыми данными. Если вы просто узнаете все из образцов документов, то вы можете получить хорошую точность в наборе данных для обучения, но вы можете не набрать столько баллов на реальном экзамене. Это означает, что модель страдает от высокой дисперсии. Поэтому вам нужно расширить набор обучающих данных.

Но если вы учитесь из нескольких источников, а не изучаете все по образцам работ, у вас больше шансов хорошо сдать экзамен. Вот какой должна быть обобщенная модель. Это должно дать аналогичные результаты как для обучающих, так и для тестовых наборов данных.

Так как же нам сделать сбалансированную модель?

Нет никаких правил для создания обобщенной модели, но есть определенные вещи, которые вы можете сделать, чтобы предотвратить переоснащение или недообучение вашей модели.

Чтобы предотвратить переоснащение

  1. Убедитесь, что в вашем наборе данных нет избыточных функций.
  2. Использовать регуляризацию (L1/L2)
  3. Используйте методы ансамбля (бэггинг/бустинг)

Чтобы предотвратить недообучение

  1. Убедитесь, что у вас достаточно данных
  2. Убедитесь, что у вас достаточно функций.
  3. Удалите выбросы из набора данных.
  4. Увеличить сложность модели

Вывод

В заключение хотелось бы добавить, что идеальной модели не существует. Это зависит от вашего набора данных. В науке о данных есть жаргон «Мусор в мусоре». Это означает, что у вас не может быть хорошей модели без хорошего набора данных. Поэтому, чтобы получить сбалансированную модель, вы должны обучить свою модель качественными данными.