Это краткий обзор машинного обучения. Что это такое, что такое обучение и каковы наиболее распространенные концепции. Он задуман как первый шаг в изучении темы.

📄 Содержание

«Мудрый человек может узнать больше из глупого вопроса, чем дурак - из мудрого ответа».

- Брюс Ли

Что такое машинное обучение (ML)

ML находит закономерности в данных и использует их для предсказания будущего.

Для обучения требуется:

  • выявление закономерностей
  • распознавание этих шаблонов

Теперь легко находить закономерности. Но найти правильные закономерности непросто. Увеличение размера данных позволяет прогнозировать результат, который становится все более и более правильным.

  • Данные (содержит шаблоны)
  • Алгоритм (находит закономерности)
  • Модель (распознает закономерности)
  • Приложение (используется для распознавания на других данных)

Общие языки программирования, используемые для ML:

  • R
  • Python

Процесс обучения

1. Задавать вопросы

  • какие вопросы задать
  • какие данные помогут вам ответить на вопрос
  • Как ты измеряешь успех

2. Итерировать

  • отбирать и готовить данные снова и снова, чтобы их можно было использовать в алгоритме
  • применять алгоритм к данным и создавать модели снова и снова, чтобы увеличить свой успех
  • выставлять и тестировать успешные модели на различных данных

Концепции машинного обучения

  • контролируемое обучение (значение, которое вы хотите предсказать, уже есть в данных)
  • обучение без учителя (значение, которое вы хотите спрогнозировать, отсутствует в данных)

Предварительная обработка данных с контролируемым обучением

Исходные данные необходимо преобразовать в данные для обучения путем удаления ненужных элементов, таких как дубликаты, неправильная / ложная информация, бесполезная информация.

Данные обучения содержат функции, которые обозначают важные классификации и целевые значения, которые обозначают желаемую часть информации для модели.

Проблемы

  • регрессии (попытка найти линию или кривую, соответствующую данным)

  • классификация (попытка сгруппировать данные по классам)

  • кластеризация (попытка идентифицировать сегменты данных Пример)

Алгоритмы

Общие стили:

  • деревья решений (построение модели на основе фактических значений атрибутов в данных)

  • нейронные сети (построить модель на основе рекомбинации и переоценки результатов в обучающих данных)

  • байесовский (фильтры по вероятностным классификаторам)

  • K-средства (построить модель на основе векторного квантования до k ближайших обучающих примеров)

(Набор данных о цветках ириса, сгруппированный с использованием k средних (слева) и истинных видов в наборе данных (справа). Обратите внимание, что k-среднее не является детерминированным, поэтому результаты различаются. прозрачные маркеры. Визуализация создана с помощью ELKI.)

Обучение модели

  1. найти функции, которые имеют отношение к определению целевого значения
  2. поместить значительный процент данных функций в алгоритм
  3. создать модель
  4. протестировать модель с оставшимся процентом данных функций путем сравнения целевых значений со значениями из фактических данных
  5. если модель неточная, измените характеристики, измените алгоритм или измените данные

Спасибо, что прочитали мою статью! Не стесняйтесь оставлять отзывы!