Решение фундаментальной проблемы науки о данных

Хорошая модель машинного обучения нацелена на хорошее обобщение обучающих данных на любые данные из предметной области. Это позволяет нам делать прогнозы в будущем на основе данных, которые модель никогда не видела.

Существует терминология, используемая в машинном обучении, когда мы говорим о том, насколько хорошо модель машинного обучения учится и обобщает новые данные, а именно о переоснащении и недообучении.

Переоснащение и недообучение — две основные причины низкой производительности алгоритмов машинного обучения.

Прежде чем разбираться с переобучением и недообучением, давайте рассмотрим пример, чтобы понять концепцию!

Давайте разберемся на простом примере.

В классе 3 ученика по имени А, Б, С. В классе мы проводим тест. студент, чье имя А, получил 90% на тесте, аналогично, B получил 85%, а C получил 40%.

Теперь на самом выпускном экзамене А получил 60%, В получил 80% и С получил 35%.

Таким образом, мы можем сказать, что студент А только помнит программу, но не понимает, студент Б понимает программу, а С даже не помнит и не понимает.

Теперь давайте перейдем к фактической концепции:

Gmail спам или не спам

У нас есть одна модель, в этой модели у нас есть некоторые данные, скажем, 10 Gmail, теперь мы разделяем данные на обучающие и тестовые данные, чтобы проверить, спам это или нет.

Ввод (функция) – Gmail

Вывод (метка класса) - спам или не спам

Обучение данных:

Во-первых, мы собираемся обучить наши данные,

Как мы можем видеть на рисунке выше, мы получили прогноз поезда Y,

теперь мы рассчитываем точность наших обучающих данных, у нас есть 8 электронных писем в учебном модуле, поэтому

Точность = 6/8

75%

после обучения данных мы получили точность 75%.

теперь давайте проверим данные,

Тестирование данных:

после обучения нашей модели теперь мы тестируем данные, чтобы проверить точность.

как мы видим выше на рис., предсказание теста y дает одно неверное предсказание.

расчет точности тестируемой модели

1/2 = 50%

теперь мы говорим, что это пример переобучения.

Переоснащение

Студент А получил 90% тестов в классе, но 60% на выпускном экзамене, точно так же точность обучения модели составляет 99%, но точность тестирования составляет 65%, то есть модель только запоминает данные, не понимая их, так что это переобучение.

Переобучение происходит, когда модель изучает детали и шум в обучающих данных до такой степени, что это негативно влияет на производительность модели на новых данных. Это означает, что шум или случайные колебания в обучающих данных улавливаются и изучаются моделью как понятия. Проблема в том, что эти концепции неприменимы к новым данным и негативно влияют на способность модели к обобщению.

В идеале

Студент B получил 85% в классном тесте, а также на выпускном экзамене он получил 80%, аналогично точность обучения модели составляет 80%, а точность тестирования составляет 80%, модель Менаса понимает данные.

В идеале вы хотите выбрать модель, которая находится на балансе между недообучением и переоснащением.

Это цель, но очень трудно сделать на практике.

Недооснащение

Студент c получил 40% тестов в классе и на выпускном экзамене 35%, аналогично точность обучения модели составляет 35%, а точность тестирования составляет 30%, что означает, что модель даже не запоминает данные или не понимает.

Недообучение относится к модели, которая не может ни моделировать обучающие данные, ни обобщать новые данные.

Неподходящая модель машинного обучения не является подходящей моделью и будет очевидна, поскольку она будет иметь низкую производительность на обучающих данных.

Почему возникает проблема переобучения и недообучения doo

Переобучение является такой проблемой, потому что оценка алгоритмов машинного обучения на обучающих данных отличается от оценки, которая нас действительно волнует, а именно, насколько хорошо алгоритм работает на невидимых данных.

Когда модель обучена такому большому количеству данных, она начинает учиться на шуме в наборе данных.

Недообучение происходит, когда он не может зафиксировать подчеркивание обученных данных. обычно это происходит, когда у нас мало данных для построения точной модели.

Чтобы решить эту проблему:

Это должно увеличить тренировочные данные, чтобы модель могла подняться, а отношение

Увеличить сложность модели

Увеличивайте количество функций, выполняя разработку функций

Удалите шум из данных.

Выводы

Переоснащение и недообучение — это фундаментальная проблема, с которой спотыкаются даже опытные аналитики данных. подобрать модель с чрезвычайно низкой ошибкой к данным. Эта модель выглядит великолепно, но проблема в том, что никогда не использовался даже набор для тестирования, не говоря уже о наборе для проверки! Модель представляет собой не что иное, как переоснащение обучающих данных.

К счастью, теперь, когда мы увидели важность оценки и оптимизации модели с помощью перекрестной проверки, мы можем легко избежать этой ошибки.