Я заметил, что были случаи, когда данные в наборе данных носят упорядоченный характер, что может привести к уменьшению любых прогнозов, сделанных в наборе данных. Поэтому всякий раз, когда я сталкиваюсь с набором данных, который кажется мне подготовленным в определенном порядке, я перетасовываю его.

Я обнаружил, что перетасовка набора данных может повысить точность, поэтому, если прогнозируемая точность набора данных низка, всегда стоит перетасовывать данные в начале программы, чтобы гарантировать, что когда они будут обучены и вписаны в модель, они будут правильными. в случайном порядке.

Чтобы подготовить этот пост, я заглянул на сайт StackExchange, чтобы узнать, что говорят по этому поводу их эксперты. По мнению экспертов StackExchange:

Перетасовка данных снижает дисперсию и гарантирует, что модели остаются общими и меньше подходят друг другу.

Очевидным случаем является сортировка данных по классу/цели. В таких ситуациях данные должны быть отсортированы, чтобы гарантировать, что данные обучения/валидации/тестирования репрезентативны для общего распределения данных.

Пример кода для простого способа сортировки фрейма данных с помощью веб-сайта машинного обучения Python, sklearn, можно найти ниже:

Изучая этот пост в блоге, я нашел другие примеры того, почему данные должны быть отсортированы с учетом использования нейронных сетей. Однако я не специалист по нейронным сетям. Если вы работаете с нейронными сетями и хотели бы знать, когда вам следует перемешивать данные, вы можете прочитать об этом здесь: https://datascience.stackexchange.com/questions/24511/why-should-the-data-be -перетасованные-для-задач-машинного-обучения»

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord.