Практическое машинное обучение.

Часть 0.

Базовые знания об этом полезны

  1. Питон
  2. NumPy
  3. Панды
  4. Матплотлиб
  5. Scikit-learn

Часть 1. Предварительная обработка данных

Предварительная обработка данных - важный шаг в процессе интеллектуального анализа данных.

  1. Импортировать библиотеку
  2. Получите данные
  3. Проверьте наличие отсутствующих или нулевых данных.
  4. Преобразование категориальных данных в числа
  5. Разделить данные на данные для обучения и тестирования

Для предварительной обработки данных посмотрите этот Блокнот Jupyter.

Часть 2: обучение с учителем

Обучение с учителем - это обучение модели с входной переменной и выходной переменной, а алгоритм сопоставляет входные данные с выходными.

Контролируемое обучение подразделяется на две категории алгоритмов:

  • Классификация: проблема классификации возникает, когда выходной переменной является категория, например «болезнь» или «Нет болезни».
  • Регрессия. Проблема регрессии возникает, когда выходной переменной является действительное значение, например «Цена».

2.1 Классификация

Существует множество приложений для классификации от здравоохранения до маркетинга.

Узнайте, как реализовать следующие модели классификации:

2.2 Регрессия

Техника регрессии варьируется от линейной регрессии до случайного леса.

Часть 3: обучение без учителя

Неконтролируемое обучение - это когда присутствуют только входные данные и нет соответствующей выходной переменной.

В обучении без учителя есть две категории алгоритмов:

  • Кластеризация. Проблема кластеризации заключается в том, что вы хотите обнаружить неотъемлемые группировки в данных, например группировку клиентов по покупательскому поведению.
  • Ассоциация: проблема изучения правил ассоциации - это когда вы хотите найти правила, которые описывают большую часть ваших данных, например, люди, которые покупают X, также склонны покупать Y

3.1 Кластеризация

Кластеризация похожа на классификацию, но основа другая. При кластеризации вы не знаете, что ищете, и пытаетесь идентифицировать некоторые сегменты или кластеры в своих данных.

Узнайте, как реализовать следующие модели кластеризации машинного обучения:

  • К-среднее Кластеризация
  • Иерархическая кластеризация

Основная проблема заключается в том, как использовать правильный оценщик для наших задач?

Вы можете использовать Scikit-learn map для решения своей задачи.

Чтобы сделать мир лучше, используйте данные с умом.

-Vivek2509

Первоначально опубликовано на https://vivek2509.blogspot.com 21 октября 2020 г.