Решение фундаментальной проблемы науки о данных
Хорошая модель машинного обучения нацелена на хорошее обобщение обучающих данных на любые данные из предметной области. Это позволяет нам делать прогнозы в будущем на основе данных, которые модель никогда не видела.
Существует терминология, используемая в машинном обучении, когда мы говорим о том, насколько хорошо модель машинного обучения учится и обобщает новые данные, а именно о переоснащении и недообучении.
Переоснащение и недообучение — две основные причины низкой производительности алгоритмов машинного обучения.
Прежде чем разбираться с переобучением и недообучением, давайте рассмотрим пример, чтобы понять концепцию!
Давайте разберемся на простом примере.
В классе 3 ученика по имени А, Б, С. В классе мы проводим тест. студент, чье имя А, получил 90% на тесте, аналогично, B получил 85%, а C получил 40%.
Теперь на самом выпускном экзамене А получил 60%, В получил 80% и С получил 35%.
Таким образом, мы можем сказать, что студент А только помнит программу, но не понимает, студент Б понимает программу, а С даже не помнит и не понимает.
Теперь давайте перейдем к фактической концепции:
Gmail спам или не спам
У нас есть одна модель, в этой модели у нас есть некоторые данные, скажем, 10 Gmail, теперь мы разделяем данные на обучающие и тестовые данные, чтобы проверить, спам это или нет.
Ввод (функция) – Gmail
Вывод (метка класса) - спам или не спам
Обучение данных:
Во-первых, мы собираемся обучить наши данные,
Как мы можем видеть на рисунке выше, мы получили прогноз поезда Y,
теперь мы рассчитываем точность наших обучающих данных, у нас есть 8 электронных писем в учебном модуле, поэтому
Точность = 6/8
75%
после обучения данных мы получили точность 75%.
теперь давайте проверим данные,
Тестирование данных:
после обучения нашей модели теперь мы тестируем данные, чтобы проверить точность.
как мы видим выше на рис., предсказание теста y дает одно неверное предсказание.
расчет точности тестируемой модели
1/2 = 50%
теперь мы говорим, что это пример переобучения.
Переоснащение
Студент А получил 90% тестов в классе, но 60% на выпускном экзамене, точно так же точность обучения модели составляет 99%, но точность тестирования составляет 65%, то есть модель только запоминает данные, не понимая их, так что это переобучение.
Переобучение происходит, когда модель изучает детали и шум в обучающих данных до такой степени, что это негативно влияет на производительность модели на новых данных. Это означает, что шум или случайные колебания в обучающих данных улавливаются и изучаются моделью как понятия. Проблема в том, что эти концепции неприменимы к новым данным и негативно влияют на способность модели к обобщению.
В идеале
Студент B получил 85% в классном тесте, а также на выпускном экзамене он получил 80%, аналогично точность обучения модели составляет 80%, а точность тестирования составляет 80%, модель Менаса понимает данные.
В идеале вы хотите выбрать модель, которая находится на балансе между недообучением и переоснащением.
Это цель, но очень трудно сделать на практике.
Недооснащение
Студент c получил 40% тестов в классе и на выпускном экзамене 35%, аналогично точность обучения модели составляет 35%, а точность тестирования составляет 30%, что означает, что модель даже не запоминает данные или не понимает.
Недообучение относится к модели, которая не может ни моделировать обучающие данные, ни обобщать новые данные.
Неподходящая модель машинного обучения не является подходящей моделью и будет очевидна, поскольку она будет иметь низкую производительность на обучающих данных.
Почему возникает проблема переобучения и недообучения doo
Переобучение является такой проблемой, потому что оценка алгоритмов машинного обучения на обучающих данных отличается от оценки, которая нас действительно волнует, а именно, насколько хорошо алгоритм работает на невидимых данных.
Когда модель обучена такому большому количеству данных, она начинает учиться на шуме в наборе данных.
Недообучение происходит, когда он не может зафиксировать подчеркивание обученных данных. обычно это происходит, когда у нас мало данных для построения точной модели.
Чтобы решить эту проблему:
Это должно увеличить тренировочные данные, чтобы модель могла подняться, а отношение
Увеличить сложность модели
Увеличивайте количество функций, выполняя разработку функций
Удалите шум из данных.
Выводы
Переоснащение и недообучение — это фундаментальная проблема, с которой спотыкаются даже опытные аналитики данных. подобрать модель с чрезвычайно низкой ошибкой к данным. Эта модель выглядит великолепно, но проблема в том, что никогда не использовался даже набор для тестирования, не говоря уже о наборе для проверки! Модель представляет собой не что иное, как переоснащение обучающих данных.
К счастью, теперь, когда мы увидели важность оценки и оптимизации модели с помощью перекрестной проверки, мы можем легко избежать этой ошибки.