Это краткий обзор машинного обучения. Что это такое, что такое обучение и каковы наиболее распространенные концепции. Он задуман как первый шаг в изучении темы.
📄 Содержание
- Что такое машинное обучение (ML)
- Учебный процесс
- «-1. Задавать вопросы"
- -2. Итерировать
- Концепции машинного обучения
- -Предобработка данных с обучением с учителем
- "-Проблемы"
- -Алгоритмы
- -Обучение модели
«Мудрый человек может узнать больше из глупого вопроса, чем дурак - из мудрого ответа».
- Брюс Ли
Что такое машинное обучение (ML)
ML находит закономерности в данных и использует их для предсказания будущего.
Для обучения требуется:
- выявление закономерностей
- распознавание этих шаблонов
Теперь легко находить закономерности. Но найти правильные закономерности непросто. Увеличение размера данных позволяет прогнозировать результат, который становится все более и более правильным.
- Данные (содержит шаблоны)
- Алгоритм (находит закономерности)
- Модель (распознает закономерности)
- Приложение (используется для распознавания на других данных)
Общие языки программирования, используемые для ML:
- R
- Python
Процесс обучения
1. Задавать вопросы
- какие вопросы задать
- какие данные помогут вам ответить на вопрос
- Как ты измеряешь успех
2. Итерировать
- отбирать и готовить данные снова и снова, чтобы их можно было использовать в алгоритме
- применять алгоритм к данным и создавать модели снова и снова, чтобы увеличить свой успех
- выставлять и тестировать успешные модели на различных данных
Концепции машинного обучения
- контролируемое обучение (значение, которое вы хотите предсказать, уже есть в данных)
- обучение без учителя (значение, которое вы хотите спрогнозировать, отсутствует в данных)
Предварительная обработка данных с контролируемым обучением
Исходные данные необходимо преобразовать в данные для обучения путем удаления ненужных элементов, таких как дубликаты, неправильная / ложная информация, бесполезная информация.
Данные обучения содержат функции, которые обозначают важные классификации и целевые значения, которые обозначают желаемую часть информации для модели.
Проблемы
- регрессии (попытка найти линию или кривую, соответствующую данным)
- классификация (попытка сгруппировать данные по классам)
- кластеризация (попытка идентифицировать сегменты данных Пример)
Алгоритмы
Общие стили:
- деревья решений (построение модели на основе фактических значений атрибутов в данных)
- нейронные сети (построить модель на основе рекомбинации и переоценки результатов в обучающих данных)
- байесовский (фильтры по вероятностным классификаторам)
- K-средства (построить модель на основе векторного квантования до k ближайших обучающих примеров)
(Набор данных о цветках ириса, сгруппированный с использованием k средних (слева) и истинных видов в наборе данных (справа). Обратите внимание, что k-среднее не является детерминированным, поэтому результаты различаются. прозрачные маркеры. Визуализация создана с помощью ELKI.)
Обучение модели
- найти функции, которые имеют отношение к определению целевого значения
- поместить значительный процент данных функций в алгоритм
- создать модель
- протестировать модель с оставшимся процентом данных функций путем сравнения целевых значений со значениями из фактических данных
- если модель неточная, измените характеристики, измените алгоритм или измените данные
Спасибо, что прочитали мою статью! Не стесняйтесь оставлять отзывы!