Чтобы избежать переобучения, мы иногда разделяли данные на обучающие и тестовые данные. Потому что, если все данные применяются для создания модели, мы не можем эффективно протестировать модель. Вот почему разделение подготовленных данных необходимо, чтобы избежать переобучения.

Удержание

Метод Hold-Out разбивает данные на данные поезда и данные тестового поезда. Данные обучения — это то, на чем обучается модель. Тестовые данные — это то, что модель использует для проверки точности модели. Обычное разделение, когда мы используем метод удержания, использует 80% данных обучения и оставшиеся 20% данных для обучения. Мы можем легко применить метод удержания, используя модуль train-test-split в python. Левая красная полоса представляет данные поезда. Правые фиолетовые данные представляют тестовые данные.

Перекрестная проверка

Перекрестная проверка или «к-кратная перекрестная проверка» — это когда данные разбиваются на k групп случайным образом. Одна из групп используется в качестве тестовой, остальные используются в качестве поезда. Затем модель обеспечивает точность модели. При перекрестной проверке этот процесс повторяется k раз. Мы видим точность модели по среднему значению этих тестов.

Оставьте один (или) Складной нож

Пропустить один или использовать метод складного ножа, когда я беру одни данные для тестирования, а остальные данные используются для обучения. Этот процесс повторяется до тех пор, пока все данные не будут выбраны в качестве тестовых данных. Мы проверяем точность модели, используя среднее значение точности из всех значений точности.

На изображении выше показано разделение данных с исключением одного. Красная полоса показывает обучающий набор, фиолетовая полоса представляет данные тестового обучения, которые содержат только одни данные.

Вывод

Переобучение — это основная проблема, которую мы должны избегать. Существуют различные методы, как я упоминал выше. В этих методах удержание, перекрестная проверка и складной нож являются простыми шагами. Более того, вы можете применять эти методы очень легко.