Введение в контролируемое машинное обучение

Машинное обучение — это подобласть искусственного интеллекта (ИИ), которая позволяет компьютерным системам обучаться и совершенствоваться при выполнении широкого круга задач без необходимости явного программирования. За последние несколько десятилетий он приобрел огромную популярность по многим причинам, таким как рост вычислительной мощности, создание большего объема данных, открытие новых вариантов использования реализации и т. д.

В общем обзоре алгоритмы машинного обучения можно разделить на три основные категории в зависимости от цели обучения:

Машинное обучение с учителем.Цель машинного обучения с учителем — предсказать метку на основе набора функций. Например, мы можем предсказать, сдаст ли учащийся экзамен или провалит его, исходя из количества посещений занятий, оценок за домашнее задание и количества завершенных проектов.

Здесь хорошая модель обучения с учителем предсказывает, что учащийся № 6 не сдаст экзамен, поскольку он во многом похож на учащегося № 2, который не сдал экзамен в прошлом.

Неконтролируемое машинное обучение. Цель неконтролируемого обучения — сделать вывод на основе набора функций. Например, при неконтролируемом обучении мы можем группировать учащихся по количеству выполненных ими проектов. Учащиеся с небольшим количеством завершенных проектов распределяются в одну группу, а учащиеся с большим количеством завершенных проектов распределяются в другую группу.
Машинное обучение с подкреплением. Целью обучения с подкреплением является обучение агента (бота) выполнению определенной задачи с помощью итеративного метода проб и ошибок. Например, с помощью обучения с подкреплением мы можем научить играющего в шахматы бота выигрывать в шахматы, предварительно заставив его сыграть тысячи партий. Это позволяет агенту понимать все ходы, необходимые для победы в игре, и не делать ни одного проигрышного хода.

В этом курсе мы сосредоточимся на контролируемом обучении и двух его наиболее широко используемых методах: регрессии и классификации.

Основные понятия, связанные с контролируемым машинным обучением

Прежде чем мы перейдем к изучению различных методов и алгоритмов, используемых для машинного обучения, давайте узнаем о некоторых основных концепциях, связанных с контролируемым машинным обучением.

1. Характеристики набора данных в контролируемом машинном обучении

В контролируемом машинном обучении набор данных обычно содержит два типа переменных данных:

Зависимая переменная (Цель) —Зависимая переменная — это метка или цель, которую мы хотим предсказать.
Независимая переменная (Функция) —Независимая переменная — это функция, от которой зависит цель.

Как упоминалось во вступительном разделе, при обучении с учителем мы можем предсказать, сдаст или провалит экзамен учащийся, исходя из количества посещений занятий, оценок за домашнее задание и количества выполненных проектов.

Здесь зависимой переменной является результат экзамена (пройден/не пройден), и, поскольку он зависит от остальных столбцов, остальные столбцы являются независимыми переменными.

(Обратите внимание, что набор данных может содержать две или даже более зависимых переменных, и такие случаи распространены в сложных задачах машинного обучения.)

2. Оценка модели контролируемого машинного обучения

Когда модель обучается на наборе данных, она пытается сделать предсказанное значение зависимой переменной максимально близким к фактическому значению зависимой переменной.

Рассмотрим следующий набор фактических целевых значений и прогнозируемых целевых значений для результатов экзаменов 5 студентов:

Здесь модель успешно предсказала целевое значение для учащихся «1», «2» и «4», но неверно предсказала целевое значение для учащихся «3» и «5». Таким образом, процент ошибок можно рассчитать как

Процент ошибок = (количество неверных прогнозов/количество всех прогнозов)*100%

И процент точности можно рассчитать как

Процент точности = 100% — процент ошибки.

Итак, для приведенного выше набора данных процент ошибок получается как

Процент ошибки = (2/5)*100% = 40%

И процент точности получается как,

Точность в процентах = 100% — 40% = 60%

Это один из самых простых способов оценки модели контролируемого машинного обучения.

3. Разделение на обучение/тестирование

При оценке модели важно знать, как модель работает с данными, на которых она не обучалась. Поэтому мы сохраняем подмножество данных из набора данных в качестве тестового набора для целей оценки.

Как правило, набор данных случайным образом разбивается на обучающий/тестовый набор в соотношении 70:30. Это означает, что для набора данных, содержащего 100 строк данных, модель будет обучаться только на 70 строках случайно выбранных точек данных, а оставшиеся 30 строк будут использоваться для оценки точности модели.

Выполнение оценки модели на обучающем наборе обеспечит точность обучающего набора, а выполнение оценки модели на тестовом наборе даст точность тестового набора.

4. Компромисс смещения и дисперсии

Хотя компромисс смещения и дисперсии звучит как сложный термин, его довольно просто понять.

Когда модель машинного обучения не может хорошо предсказать метки обучающего набора, говорят, что она имеет высокое смещение и низкую дисперсию. Такая производительность указывает на то, что модель недостаточно приспособлена и неточна на тренировочном наборе.

С другой стороны, когда модель машинного обучения отлично справляется с прогнозированием меток обучающего набора, но не справляется с прогнозированием меток тестового набора, говорят, что она имеет низкое смещение и высокую дисперсию. Такая производительность указывает на то, что модель переобучена и чрезвычайно точна на тренировочном наборе, но неточна на тестовом наборе.

Недостаточная и чрезмерная подгонка — две наиболее распространенные проблемы, с которыми сталкиваются модели машинного обучения. Следовательно, чтобы построить модель с наилучшей производительностью, должен быть компромисс между смещением и дисперсией, чтобы модель точно предсказывала метки обучения, а также набор тестов. Это компромисс смещения и дисперсии.

5. Процесс контролируемого машинного обучения

Большинство моделей контролируемого машинного обучения обучаются и оцениваются с использованием одного и того же базового процесса, как показано на схеме ниже.

Шаги следующие:

Подготовка данных. Подготовка данных — одна из самых сложных и трудоемких задач в любом процессе машинного обучения. На этом этапе все необходимые данные собираются из различных источников, предварительно обрабатываются, а затем разбиваются на обучающий и тестовый наборы для дальнейшей обработки.
Построение модели. На этом этапе строится фактическая модель с использованием различных алгоритмов контролируемого машинного обучения.
Обучение модели. Построенная модель обучается путем итеративного ввода в нее обучающих данных. На каждой итерации модель пытается стать все более и более точной, уменьшая свою ошибку. Обучение останавливается, когда достигается определенное количество конечных итераций или когда выполняются другие предварительно определенные критерии остановки.
Оценка модели. Обученная модель оценивается по набору тестов для определения ее производительности и поиска способов ее улучшения.

Весь процесс в основном повторяется несколько раз, пока на этапе оценки модели не будут получены удовлетворительные результаты.

Вы хотите изучать Python, науку о данных и машинное обучение во время получения сертификата? Вот несколько самых продаваемых курсов Udemy, на которые мы рекомендуем вам записаться:

2021 Complete Python Bootcamp From Zero to Hero in Python — уже зачислено более 1 000 000 студентов!
Python для Data Science and Machine Learning Bootcamp — уже зачислено более 400 000 студентов!
Полное руководство по TensorFlow для глубокого обучения с помощью Python — уже зачислено более 90 000 студентов!
Учебный курс по науке о данных и машинному обучению с R — уже зачислено более 70 000 студентов!
Полный курс SQL Bootcamp 2021: от нуля до героя — уже зачислено более 400 000 студентов!

Отказ от ответственности. Когда вы совершаете покупку по приведенным выше ссылкам, мы можем получать комиссию как партнер.

Первоначально опубликовано на https://www.theclickreader.com.