Модным словом в современном технологическом мире будет машинное обучение. Найти отправную точку с машинным обучением может быть немного сложно.

Итак, я предлагаю вам консолидированный формат для решения проблем машинного обучения и, надеюсь, поможет вам приступить к изучению тематических исследований Kaggle.

Шаги к решению проблем машинного обучения

  1. Прежде чем начинать работу с какой-либо проблемой, вам необходимо понять ее цель, которая помогает определить, как сформулировать проблему. Кроме того, постарайтесь понять, есть ли какое-либо текущее решение, внедренное организацией, которое могло бы помочь вам в достижении поставленной цели.
  2. Разберитесь в задаче машинного обучения, которую необходимо реализовать.
  • Определите, является ли проблема контролируемым, неконтролируемым или подкрепляющим обучением. Подробнее об этом вы можете узнать из Youtube Video.
  • Определите, является ли это задачей классификации, задачей регрессии или чем-то еще
  • Что следует использовать: пакетное обучение или методику онлайн-обучения

3. Выполните первоначальное исследование данных, используя следующие шаги:

  • Используя функцию гистограммы, мы можем анализировать асимметрию данных.
  • Используйте корреляцию, чтобы понять взаимосвязь между функциями

4. Удалите все ненужные или повторяющиеся объекты из набора данных.

5. Разделите данные на набор обучающих данных и набор тестовых данных, используя один из следующих методов выборки:

  • Простая случайная выборка
  • Стратифицированная выборка
  • Кластеризация выборки

6. Используйте обучающий набор для обучения модели. В случае обучения с учителем удалите целевой (выходной) столбец из обучающего набора и сохраните его значение в другой переменной.

7. Проверьте, не содержит ли какой-либо объект в наборе данных отсутствующие значения. С пропущенными значениями можно справиться следующими способами:

  • Удалите из набора данных столбец, содержащий недостающие значения.
  • Удалите из набора данных строки для столбцов, которые содержат пропущенные значения.
  • Заполните пропущенные значения средним, медианным или модовым значением.

8. При заполнении пропущенного значения следует заполнять только числовые поля вычисленным средним / медианным / модовым значением.

9. Преобразуйте значения категориального поля в целое число, используя один из следующих методов:

  • Факторизация
  • Одно горячее кодирование

10. Если возможно, выполните проектирование функций, которое вычисляет новый столбец из существующих функций, которые добавляют ценность данным.

11. Выполните масштабирование функций, чтобы нормализовать диапазон независимых переменных или характеристик данных. Это можно сделать одним из следующих способов:

  • Нормализация
  • Стандартизация

12. Протестируйте различные алгоритмы на обучающих данных, чтобы найти лучший алгоритм, который соответствует данным.

13. Проверьте прогноз ошибки, чтобы сравнить результаты алгоритма и выбрать лучший из них. Можно использовать следующие методы прогнозирования ошибок:

  • Средняя абсолютная ошибка
  • Среднеквадратичная ошибка

14. Настройте модель, используя следующие методы:

  • Гиперпараметры - используйте метод поиска по сетке / случайный поиск
  • Метод ансамбля

15. Выполните тестирование тестового набора данных, используя лучшую оценку, полученную на основе данных обучения.

16. Выполните визуализацию данных.

Надеюсь, эти шаги вам помогут !!!