Введение в машинное обучение

Контуры

Введение
Терминология
Шаги, которые необходимо выполнить
Как отрасли используют машинное обучение
Типы машинного обучения
Алгоритмы машинного обучения

Введение

Машинное обучение — это отрасль информатики, которая дает компьютерам или машинам возможность учиться на основе данных без явного программирования.

Проще говоря, машинное обучение означает поиск закономерностей в данных для прогнозирования.

Машинное обучение использует данные и ответы, чтобы обнаружить правила, лежащие в основе проблемы.

Терминология

Набор данных. Набор данных в машинном обучении — это просто набор фрагментов данных, которые компьютер может обрабатывать как единое целое в целях анализа и прогнозирования.
Функции: важные фрагменты данных, которые помогают нам понять проблему. Они передаются алгоритму машинного обучения, чтобы помочь ему учиться.

Модель.Модель — это «вещь», которая сохраняется после запуска алгоритма машинного обучения на обучающих данных и представляет собой правила, числа и любые другие структуры данных, характерные для алгоритма. требуется для предсказаний.

Проще говоря, «модель» в машинном обучении — это результат работы алгоритма машинного обучения на данных. Что представляет собой то, что было изучено алгоритмом машинного обучения. Например, алгоритм дерева решений будет обучен и создаст модель дерева решений.

Подбор. Это автоматический процесс, который гарантирует, что ваши модели машинного обучения имеют индивидуальные параметры, которые лучше всего подходят для решения вашей конкретной реальной бизнес-задачи с высоким уровнем точности.

Обобщение. Это относится к способности вашей модели должным образом адаптироваться к новым, ранее неизвестным данным, взятым из того же дистрибутива, который использовался для создания модели.

Потери.Функция потерь — это функция, которая вычисляет расстояние между текущим результатом алгоритма и ожидаемым результатом.

Этапы, которые необходимо выполнить

Сбор данных. Соберите данные, на основе которых будет учиться алгоритм.
Подготовка данных. Форматирование и преобразование данных в оптимальный формат, выделение важных функций и уменьшение размерности.
Обучение. На этом этапе алгоритм машинного обучения фактически обучается, показывая собранные и подготовленные данные.
Оценка. Протестируйте модель, чтобы увидеть, насколько хорошо она работает.
Настройка. Процесс, направленный на максимальное повышение производительности модели.

Как отрасли используют машинное обучение

Facebook использует машинное обучение для ранжирования и персонализации новостей в Ленте новостей, фильтрации оскорбительного контента, выделения популярных тем, ранжирования результатов поиска и распознавания изображений и видеоконтента.
Google использует машинное обучение практически во всех продуктах:

Фотографии — использует машинное обучение для распознавания лиц, местоположения, эмоций и т. д.
Gmail – анализирует содержимое электронной почты и предоставляет интеллектуальные ответы.

3. Youtube: Youtube использует машинное обучение для улучшения результатов поиска. Раньше он использовался для поиска по метатегу и тексту, предоставленному создателем контента, но теперь он анализирует видеоконтент и предоставляет пользователю лучший контент.

4. Amazon использует машинное обучение для рекомендации продуктов.

5. Uber использует машинное обучение в UberEATS для расчета примерного времени доставки еды.

Типы машинного обучения

В зависимости от проблемы или набора данных мы хотим выбрать подходящий алгоритм обучения. Машинное обучение поставляется с многочисленными типами обучения, которые можно использовать в разных контекстах для предоставления ответов разного характера по мере необходимости. Это:

Контролируемое обучение
Неконтролируемое обучение
Обучение с подкреплением

Контролируемое обучение

Обучение с учителем используется для разработки прогностической модели на основе как входных, так и выходных данных.

Пример: цены на жилье

Одним из практических примеров проблем контролируемого обучения является прогнозирование цен на жилье. Как это достигается?

Во-первых, нам нужен набор данных о домах: в нем независимыми переменными являются квадратные метры, количество комнат, город, долгота, широта и так далее. Затем нам нужно знать цены на эти дома, то есть зависимые переменные. Используя данные, поступающие от тысяч домов, их характеристик и цен, мы теперь можем обучить контролируемую модель машинного обучения прогнозировать цену нового дома на основе примеров, наблюдаемых моделью.

«В числовомнаборе данных мы используем регрессию, а в категориальномнаборе данных мы используем методы классификации»

Регрессия

Регрессия — еще одна форма контролируемого обучения. Разница между классификацией и регрессией заключается в том, что регрессия выводит число, а не класс. Таким образом, регрессия полезна при прогнозировании проблем, основанных на числах, таких как цены на фондовом рынке, температура в данный день или вероятность события.

Пример регрессии: посетители на пляже

Целью обучения с учителем будет изучение карты, описывающей взаимосвязь между температурой и количеством посетителей пляжа.

В качестве примера предоставляются помеченныеданные о прошлых парах входных и выходных данных в процессе обучения, чтобы научить модель тому, как она должна вести себя, следовательно, обучение под наблюдением. Для примера с пляжем затем можно ввести новые входные данные,прогноз температуры, а затем алгоритм машинного обучения выведет будущий прогноз для числа посетителей.

Input [temperature=50] -> Model -> Output = [visitors=100]

2. Классификация

Классификация — это процесс классификации данного набора данных по классам. Он может выполняться как на структурированных, так и на неструктурированных данных. > данные. Процесс начинается с прогнозирования класса заданных точек данных. Классы часто называют целевыми, метками или категориями.

В качестве примера предоставляются помеченныеданные о прошлых парах входных и выходных данных в процессе обучения, чтобы научить модель тому, как она должна вести себя, следовательно, обучение под наблюдением. В примере с пляжем новые входные данные затем могут быть введены впрогнозируемую температурукласса, после чего алгоритм машинного обучения будет выводить будущее прогноз количества посетителей.

Input [temperature=20] -> Model -> Output = [visitors=high]

Алгоритмы, которые подпадают под контролируемое обучение

Линейная регрессия
Логистическая регрессия
Древо решений
Случайный лес
Машина опорных векторов
Повышение градиента
Экстремальное повышение градиента
Усиление светового градиента
Укладка
каскадный

Методы повышения

Адабуст
GBDT (Градиентные деревья принятия решений)
Категориальное повышение

Обучение без учителя

Неконтролируемое обучение использует алгоритмы машинного обучения для анализа и кластеризации немаркированных наборов данных. Эти алгоритмы обнаруживают скрытые шаблоны или группы данных без необходимости вмешательства человека.

Примером неконтролируемого обучения в реальной жизни может быть сортировка карточек разного цвета в отдельные стопки. Никто не учил вас, как их разделять, но, просто взглянув на их характеристики, такие как цвет, вы можете увидеть, какие цветные карты связаны, и сгруппировать их в соответствующие группы.

Обучение без учителя может быть немного сложнее, чем обучение с учителем, так как устранение контроля означает, что проблема стала менее определенной, что означает отсутствие связи между переменными. Алгоритм менее сфокусирован на представлении о том, какие закономерности искать.

Например, если вы научились играть на гитаре под присмотром учителя, вы быстро научитесь, повторно используя полученные знания о нотах, аккордах и ритмах. Но если бы вы учились только сами, вам было бы намного сложнее понять, с чего начать.

В обучении без учителя используются следующие методы: кластеризация и ассоциация.

Кластеризация

«Кластеризация» — это процесс группировки схожих объектов. Цель этого метода неконтролируемого машинного обучения — найти сходство в точке данных и сгруппировать похожие точки данных вместе.

2.Ассоциация

Правило ассоциации — это обучение без учителя, когда алгоритм пытается учиться без учителя, поскольку данные не помечены. Правило ассоциации является описательным, а не прогнозным методом, обычно используемым для обнаружения интересных отношений, скрытых в больших наборах данных.

Алгоритмы, используемые в неконтролируемом обучении

Типы кластеризации

Кластеризация K-средних
KNN (k-ближайшие соседи)
Иерархическая кластеризация
Обнаружение аномалий