Контуры
- Введение
- Терминология
- Шаги, которые необходимо выполнить
- Как отрасли используют машинное обучение
- Типы машинного обучения
- Алгоритмы машинного обучения
Введение
Машинное обучение — это отрасль информатики, которая дает компьютерам или машинам возможность учиться на основе данных без явного программирования.
Проще говоря, машинное обучение означает поиск закономерностей в данных для прогнозирования.
Машинное обучение использует данные и ответы, чтобы обнаружить правила, лежащие в основе проблемы.
Терминология
- Набор данных. Набор данных в машинном обучении — это просто набор фрагментов данных, которые компьютер может обрабатывать как единое целое в целях анализа и прогнозирования.
- Функции: важные фрагменты данных, которые помогают нам понять проблему. Они передаются алгоритму машинного обучения, чтобы помочь ему учиться.
- Модель.Модель — это «вещь», которая сохраняется после запуска алгоритма машинного обучения на обучающих данных и представляет собой правила, числа и любые другие структуры данных, характерные для алгоритма. требуется для предсказаний.
Проще говоря, «модель» в машинном обучении — это результат работы алгоритма машинного обучения на данных. Что представляет собой то, что было изучено алгоритмом машинного обучения. Например, алгоритм дерева решений будет обучен и создаст модель дерева решений.
- Подбор. Это автоматический процесс, который гарантирует, что ваши модели машинного обучения имеют индивидуальные параметры, которые лучше всего подходят для решения вашей конкретной реальной бизнес-задачи с высоким уровнем точности.
- Обобщение. Это относится к способности вашей модели должным образом адаптироваться к новым, ранее неизвестным данным, взятым из того же дистрибутива, который использовался для создания модели.
- Потери.Функция потерь — это функция, которая вычисляет расстояние между текущим результатом алгоритма и ожидаемым результатом.
Этапы, которые необходимо выполнить
- Сбор данных. Соберите данные, на основе которых будет учиться алгоритм.
- Подготовка данных. Форматирование и преобразование данных в оптимальный формат, выделение важных функций и уменьшение размерности.
- Обучение. На этом этапе алгоритм машинного обучения фактически обучается, показывая собранные и подготовленные данные.
- Оценка. Протестируйте модель, чтобы увидеть, насколько хорошо она работает.
- Настройка. Процесс, направленный на максимальное повышение производительности модели.
Как отрасли используют машинное обучение
- Facebook использует машинное обучение для ранжирования и персонализации новостей в Ленте новостей, фильтрации оскорбительного контента, выделения популярных тем, ранжирования результатов поиска и распознавания изображений и видеоконтента.
- Google использует машинное обучение практически во всех продуктах:
- Фотографии — использует машинное обучение для распознавания лиц, местоположения, эмоций и т. д.
- Gmail – анализирует содержимое электронной почты и предоставляет интеллектуальные ответы.
3. Youtube: Youtube использует машинное обучение для улучшения результатов поиска. Раньше он использовался для поиска по метатегу и тексту, предоставленному создателем контента, но теперь он анализирует видеоконтент и предоставляет пользователю лучший контент.
4. Amazon использует машинное обучение для рекомендации продуктов.
5. Uber использует машинное обучение в UberEATS для расчета примерного времени доставки еды.
Типы машинного обучения
В зависимости от проблемы или набора данных мы хотим выбрать подходящий алгоритм обучения. Машинное обучение поставляется с многочисленными типами обучения, которые можно использовать в разных контекстах для предоставления ответов разного характера по мере необходимости. Это:
- Контролируемое обучение
- Неконтролируемое обучение
- Обучение с подкреплением
Контролируемое обучение
Обучение с учителем используется для разработки прогностической модели на основе как входных, так и выходных данных.
Пример: цены на жилье
Одним из практических примеров проблем контролируемого обучения является прогнозирование цен на жилье. Как это достигается?
Во-первых, нам нужен набор данных о домах: в нем независимыми переменными являются квадратные метры, количество комнат, город, долгота, широта и так далее. Затем нам нужно знать цены на эти дома, то есть зависимые переменные. Используя данные, поступающие от тысяч домов, их характеристик и цен, мы теперь можем обучить контролируемую модель машинного обучения прогнозировать цену нового дома на основе примеров, наблюдаемых моделью.
«В числовомнаборе данных мы используем регрессию, а в категориальномнаборе данных мы используем методы классификации»
- Регрессия
Регрессия — еще одна форма контролируемого обучения. Разница между классификацией и регрессией заключается в том, что регрессия выводит число, а не класс. Таким образом, регрессия полезна при прогнозировании проблем, основанных на числах, таких как цены на фондовом рынке, температура в данный день или вероятность события.
Пример регрессии: посетители на пляже
Целью обучения с учителем будет изучение карты, описывающей взаимосвязь между температурой и количеством посетителей пляжа.
В качестве примера предоставляются помеченныеданные о прошлых парах входных и выходных данных в процессе обучения, чтобы научить модель тому, как она должна вести себя, следовательно, обучение под наблюдением. Для примера с пляжем затем можно ввести новые входные данные,прогноз температуры, а затем алгоритм машинного обучения выведет будущий прогноз для числа посетителей.
Input [temperature=50] -> Model -> Output = [visitors=100]
2. Классификация
Классификация — это процесс классификации данного набора данных по классам. Он может выполняться как на структурированных, так и на неструктурированных данных. > данные. Процесс начинается с прогнозирования класса заданных точек данных. Классы часто называют целевыми, метками или категориями.
В качестве примера предоставляются помеченныеданные о прошлых парах входных и выходных данных в процессе обучения, чтобы научить модель тому, как она должна вести себя, следовательно, обучение под наблюдением. В примере с пляжем новые входные данные затем могут быть введены впрогнозируемую температурукласса, после чего алгоритм машинного обучения будет выводить будущее прогноз количества посетителей.
Input [temperature=20] -> Model -> Output = [visitors=high]
Алгоритмы, которые подпадают под контролируемое обучение
- Линейная регрессия
- Логистическая регрессия
- Древо решений
- Случайный лес
- Машина опорных векторов
- Повышение градиента
- Экстремальное повышение градиента
- Усиление светового градиента
- Укладка
- каскадный
Методы повышения
- Адабуст
- GBDT (Градиентные деревья принятия решений)
- Категориальное повышение
Обучение без учителя
Неконтролируемое обучение использует алгоритмы машинного обучения для анализа и кластеризации немаркированных наборов данных. Эти алгоритмы обнаруживают скрытые шаблоны или группы данных без необходимости вмешательства человека.
Примером неконтролируемого обучения в реальной жизни может быть сортировка карточек разного цвета в отдельные стопки. Никто не учил вас, как их разделять, но, просто взглянув на их характеристики, такие как цвет, вы можете увидеть, какие цветные карты связаны, и сгруппировать их в соответствующие группы.
Обучение без учителя может быть немного сложнее, чем обучение с учителем, так как устранение контроля означает, что проблема стала менее определенной, что означает отсутствие связи между переменными. Алгоритм менее сфокусирован на представлении о том, какие закономерности искать.
Например, если вы научились играть на гитаре под присмотром учителя, вы быстро научитесь, повторно используя полученные знания о нотах, аккордах и ритмах. Но если бы вы учились только сами, вам было бы намного сложнее понять, с чего начать.
В обучении без учителя используются следующие методы: кластеризация и ассоциация.
- Кластеризация
«Кластеризация» — это процесс группировки схожих объектов. Цель этого метода неконтролируемого машинного обучения — найти сходство в точке данных и сгруппировать похожие точки данных вместе.
2.Ассоциация
Правило ассоциации — это обучение без учителя, когда алгоритм пытается учиться без учителя, поскольку данные не помечены. Правило ассоциации является описательным, а не прогнозным методом, обычно используемым для обнаружения интересных отношений, скрытых в больших наборах данных.
Алгоритмы, используемые в неконтролируемом обучении
Типы кластеризации
- Кластеризация K-средних
- KNN (k-ближайшие соседи)
- Иерархическая кластеризация
- Обнаружение аномалий