Различные типы перекрестной проверки и способы ее преодоления в машинном обучении

В этом блоге я попытался изучить различные типы методов перекрестной проверки.

В машинном обучении мы разделяем данные на обучение и тестирование, строим модель на основе наших обучающих данных и проверяем точность с помощью тестовых данных. Возникает ситуация, когда модель не соответствует или переоснащается. Мы можем решить проблему переобучения. Умный способ - это не что иное, как перекрестная проверка. Перекрестная проверка - лучшая профилактика от переобучения. Это умный метод, который позволяет нам лучше использовать наши данные.

Существуют разные типы или варианты перекрестной проверки, но общая процедура остается той же.

Вот несколько распространенных типов, которые используются для перекрестной проверки. Эти методы приведены ниже:

  1. Исключить одну перекрестную проверку (LOOCV)

Здесь каждая отдельная запись считается тестовой в экспериментах, оставляя одну строку

Например у нас есть 100 записей:

(Здесь требуется 1-я запись в качестве теста и оставшаяся в качестве обучения в первой итерации, затем вторую итерацию во втором эксперименте и так далее…)

Плюсы и минусы:

· Предвзятость в этом процессе минимальна

· Время выполнения больше, поскольку все данные обрабатываются как тестовые данные

· Приводят к большому разнообразию данных тестирования

2) Перекрестная проверка K-Fold

Входной набор данных разбивается на группы выборок равного размера. Эти образцы называются складками. Значение K определяет количество складок. Предположим, что K = 3, он будет разделен на 3 части. Каждый раз один набор данных обрабатывается как тестовые данные.

Например. Есть 900 записей и K = 3. Данные разделены на 3 блока, каждый из которых 900/3 = 300 и каждый из 300. Каждый раз обрабатывается каждый набор как тестовые данные.

Как работает Kfold

Недостаток:

Если это проблема с бинарным разъяснением, то это не даст хорошей точности для модели. Например. В наборе данных, где они классифицируются на мужские и женские, есть вероятность, что у Fold может быть больше данных о мужском по сравнению с женским, тогда тестовые данные могут привести к сильному разбросу.

3) Стратифицированная k-кратная перекрестная проверка

Это то же самое, что и K-Fold, но данные организованы таким образом, что в каждом сгибе имеется значительная вариативность данных. Это один из лучших подходов к устранению предвзятости и дисперсии.

Например. Если у нас есть проблема классификации мужского и женского пола, каждая складка будет разделена таким образом, что будет хорошее соотношение мужского и женского пола

4) Перекрестная проверка данных временных рядов

перекрестная проверка модели временных рядов - это перекрестная проверка на скользящей основе. Это полезно, когда вы работаете с данными, связанными со временем или датой. становится тренировкой для предсказания грядущих будущих данных. Например. Если прогноз акций зависит от результата предыдущего дня.

Здесь предыдущие 5 дней становятся результатом дня 6, и точно так же для дня 7 мы рассматриваем предыдущие 5 дней, то есть день 2 - день 6, где день 6 становится ввод для прогнозируемого результата на 7-й день

Надеюсь, это поможет вам понять, как работают различные перекрестные проверки, и поможет избежать переобучения. Вы можете посетить мой блог, чтобы понять, над чем не работает и не подходит нажмите здесь