Демистификация машинного обучения

Это сообщение в блоге поможет вам понять сложный мир машинного обучения на повседневных примерах. Ознакомьтесь с примером кода Python для машинного обучения с использованием популярного набора данных Iris - https://adityak6798.github.io/ml-walkthrough.html

Упрощенный способ понять машинное обучение

Вы делаете покупки в Интернете, и как только вы входите в систему, вы видите элементы, отображаемые для вас на основе ваших предыдущих поисков или покупок.

Вы когда-нибудь задумывались, что происходит за кулисами?

Большинство интернет-магазинов используют машинное обучение, чтобы рекомендовать товары, которые могут вас заинтересовать. Рекомендации по товарам основаны на ваших предыдущих поисках или вашей истории покупок или на том, что другие покупатели приобрели аналогичный товар, который вы ищете.

Это машинное обучение-ML, где шаблоны в исторических данных используются для прогнозирования будущего поведения.

Официальное определение машинного обучения

Считается, что компьютерная программа учится на опыте E в отношении некоторого класса задачи T и показателя производительности P, если это производительность P для задачи T, которая улучшается с опытом E.

Но подождите! Что означает этот загадочный материал? Условия для непрофессионала, пожалуйста.

Расширяя пример онлайн-покупок, компьютерная программа будет изучать и рекомендовать предметы для покупки на основе вашей истории покупок, поисков и истории покупок других клиентов - это называется опытом E, а онлайн-покупки - задачей T. Эффективность P - это мера того, как хорошо, что сайт отображает нужные элементы или продукты, которые могут вас заинтересовать.

Надеюсь, это помогло прояснить, как мы используем машинное обучение в повседневной жизни

Подводя итоги машинного обучения

Машинное обучение - это наука, в которой компьютеры учатся изучать и понимать закономерности на основе исторических данных, чтобы делать прогнозы для более эффективного принятия решений.

В дальнейшем машинное обучение подразделяется на контролируемое и неконтролируемое.

Машинное обучение с учителем:

Интересные вещи:

Для каждого наблюдения прогнозирующего (ых) измерения (й) Xi, i = 1,…, n существует соответствующее измерение отклика Yi.

Наша цель - подобрать модель, которая изучила закономерности на основе данных исторических наблюдений, чтобы точно предсказать реакцию для будущих наблюдений. Это достигается за счет понимания взаимосвязи между ответом (Y) и предикторами (X)

Что это вообще значит?

Другой пример, через который мы все прошли в жизни

Представьте себе, как ребенок учится под наблюдением учителя, где он использует историческую информацию, чтобы направлять ребенка и, кроме того, обучает ребенка принимать более правильные решения.

Представьте, что родитель учит ребенка ходить по разным поверхностям, держа ребенка за руку. Из исторического опыта родителей они знают, что если ребенок упадет на мягкую поверхность, это не повредит, но если ребенок упадет на твердую поверхность, ему будет больно. Затем этот опыт превращается в шаблоны, которые еще больше помогают ребенку понять разницу между падением на твердую и мягкую поверхность. Это то, что мы называем контролируемым обучением.

При обучении с учителем нам предоставляется набор данных, в котором мы уже знаем выходные данные и можем определить взаимосвязь между входом и выходом.

В нашем примере выше, основываясь на опыте ходьбы ребенка по твердым или мягким поверхностям, ребенок теперь знает результат, связанный с прошлым опытом родителей - насколько будет больно, если ребенок упадет.

А. Хорошо.

Машинное обучение с учителем бывает двух типов.

Регрессия. Результатом является непрерывная переменная (например, прогноз цен на жилье).

Классификация - выходные данные представляют собой дискретную переменную (например, "Кошка против собаки").

Непрерывно? Дискретный? Помогите пожалуйста?

Непрерывный означает, что это число может принимать любое значение, например, цена дома может быть 105 000, 212 000 и т. д.

Дискретный означает, что принимает только несколько значений (например, 0–1), например, электронное письмо может быть спамом или нет.

Неконтролируемое машинное обучение:

Интересные вещи:

Обучение без учителя описывает несколько более сложную ситуацию. Для каждого наблюдения i = 1,…, n для входных переменных Xi нет соответствующего ответа Yi.

Подобрать модель линейной регрессии невозможно, поскольку нет переменной ответа, которую можно было бы предсказать. В этой ситуации, поскольку у нас нет никакого контроля, мы в каком-то смысле работаем вслепую.

Эта ситуация называется обучением без учителя, потому что нам не хватает переменной ответа, которая могла бы контролировать наш анализ.

Хорошо…

Неконтролируемое обучение происходит, когда исторический ответ не поступает, а шаблон данных возникает сам по себе, основываясь только на предикторах.

Возьмем тот же пример, что и выше, когда никто не учит ребенка, а ребенок испытывает вещи самостоятельно, чтобы определить разницу между твердыми и мягкими поверхностями.

В будущем ребенок будет более осторожным при ходьбе по твердой поверхности, основываясь на данных или опыте, который у них был, и, следовательно, в будущем это будет использоваться для принятия более правильных решений.

Это помогает выявлять сложные процессы и закономерности без какого-либо контроля или руководства. Попытка найти структуру в немаркированных данных.

На высоком уровне разница между контролируемым и неконтролируемым машинным обучением

Машинное обучение с учителем

Целевая или выходная переменная уже известна.

Каждое наблюдение помечается правильным ответом

Обучение с учителем - это расширенное прогнозное моделирование

Примеры :

Чтобы классифицировать электронное письмо как спам или не как спам, или

Какой будет процент больных раком на основе определенных ключевых параметров

Общие модели:

Модель регрессии используется для прогнозирования количественных данных

Модели классификации используются для прогнозирования категориальных данных

Машинное обучение без учителя

Целевая или выходная переменная неизвестна

Нет правильного ответа на наблюдения. На основе данных должна появиться закономерность без каких-либо указаний

Автоматический анализ данных

Пример:

Рекомендовать клиентам книги или фильмы или

Сегментация рынка для нацеливания на нужных клиентов

Общие модели:

Кластеризация, где вы найдете группы в данных

Рекомендательные системы для рекомендаций фильмов или продуктов

Термины, часто используемые в машинном обучении:

Я часто слышу технический жаргон в машинном обучении. Вы можете помочь с этим…?

Конечно. Считайте это шпаргалкой. Эти термины обычно используются в машинном обучении (ML).

Наблюдения: каждый пример в наборе данных, который также называется историческими данными. Он может состоять из нескольких переменных. Все входные переменные (помните их раньше?) Имеют определенное значение для каждого примера. Вместе они известны как наблюдения.

Иногда набор данных может иметь переменную ответа (вспомните контролируемое обучение). Если переменная ответа отсутствует, мы можем выбрать обучение без учителя.

Функции, входная переменная или предикторы: независимые переменные в наборе данных, который используется для прогнозирования. Это переменные, которые влияют на выходную или целевую переменную.

Что такое независимые переменные? Не могли бы вы объяснить это подробнее…

Входные значения, которые не влияют друг на друга - площадь дома, количество окон в доме или расстояние от дома до школы. Помните, что эти значения используются в качестве входных данных для алгоритма машинного обучения машинного обучения.

Целевая переменная или выходная переменная: переменная, которую вы пытаетесь предсказать на основе набора данных. Также называется выходной переменной, зависимой переменной или целевой переменной.

Например, чтобы спрогнозировать алкогольную привычку студентов колледжа. Здесь целевая переменная будет заключаться в том, будет ли у учащегося проблема с алкоголем, да или нет, на основе определенных независимых переменных, например, курит ли кто-то в семье и пьет, курят ли у него друзья, братья и сестры и т. Д.

Обучающий набор: набор данных, который используется для обучения алгоритма машинного обучения.

Набор тестов: набор данных, который используется для проверки производительности алгоритма машинного обучения.

Модель: набор шаблонов, извлеченных из данных. Также известен как алгоритм машинного обучения, поскольку алгоритм изучает шаблоны из обучающего набора.

Алгоритм машинного обучения: специальные алгоритмы машинного обучения, используемые для обучения модели. Пример: линейная регрессия, K-ближайший сосед, машины опорных векторов (SVM) и т. Д.

Теперь немного математической терминологии. Не беспокойтесь об этих терминах, они очень математичны. Вы научитесь этому позже. В основном они используются для обсуждения данных.

Двухвариантный анализ: анализ взаимосвязи между двумя (двух) переменными. Используйте диаграммы разброса, чтобы понять двумерные отношения.

Что такое диаграмма рассеяния?

Тип графика, на котором значения одной переменной наносятся на одну ось, а другой - на другую, чтобы понять их взаимосвязь. Таким образом, для данного набора примеров вы наносите каждую точку и можете визуализировать отношения между ними (если таковые имеются).

На диаграмме ниже показан разброс между общей суммой счета и ее отношением к сумме чаевых.

Ковариация: мера, указывающая, совпадают ли две переменные вместе. Речь идет о направлении изменения между двумя переменными. Сила взаимосвязи между двумя переменными определяется корреляцией.

Это может быть положительная ковариация, близкая к нулю или отрицательная ковариация.

Когда изменение одной переменной линейно влияет на другую переменную. В приведенном выше примере по мере увеличения суммы счета увеличивается сумма чаевых.

Ковариация не имеет нижней или верхней границы, и ее масштаб зависит от масштаба переменных.

Корреляция: описывает направление и силу между двумя переменными.

Корреляция варьируется от +1 до -1 и стандартизирована. Значение корреляции не зависит от масштаба переменной.

Пример корреляции между наружной температурой и потреблением энергии. Оба - температура и потребление энергии, измеряются в разных единицах, но есть корреляция, и она всегда будет в пределах от +1 до -1.

Корреляция не всегда означает причинно-следственную связь.

Что такое причинно-следственная связь?

Когда одно вызывает другое. Как и во время дождя, трава становится влажной.

Похоже, вы последовали за мной! Поздравляю! Теперь вы готовы глубоко погрузиться в ML

Хорошо. Скажем, у меня есть данные и я обучил модель. Что дальше и как узнать, какая модель лучше всего подходит для моего варианта использования?

Хороший! Вы находитесь на правильном пути мышления. Теперь читайте дальше ... для более глубокого понимания