Моя мотивация состоит в том, чтобы превратить менеджеров по закупкам в специалистов по данным и наоборот! Присоединяйся! (ссылка на предыдущие главы будет в конце поста)

Глава 1 — День 2

(День новичка)

Уменьшение размерности

Уменьшение размерности - это подполе обучения без учителя.

При постановке задачи закупок мы часто имеем дело с данными высокой размерности. В более простом контексте это означает, что каждое поле данных имеет большое количество собственных измерений (или свойств).

Чем выше размерность, тем медленнее будет вычислительная производительность нашего алгоритма машинного обучения. Неконтролируемое уменьшение размерности — распространенный подход в предварительной обработке признаков. Это помогает сделать следующее

1.) Удалите шум из данных. Шум в данных также может ухудшить прогностическую эффективность алгоритма.

2.) Сжать данные в подпространство меньшего размера, сохранив при этом большую часть релевантной информации.

3.) Это также может быть полезно для визуализации данных. Например, 6-мерные данные можно легко визуализировать в 3-х измерениях.

Основная терминология и обозначения

Давайте начнем учиться, делая. Шаг 1 в любом машинном обучении — это путешествие с набором данных Iris.

Набор данных Iris похож на Hello World языков программирования. Набор данных Iris содержит измерения трех разных видов — Setosa, Versicolor и Virginica.

Измерения цветов хранятся в столбцах (также называемых признаками) набора данных. Измерения указаны в сантиметрах.

С этого момента мы будем использовать матричную и векторную нотацию для ссылки на наш набор данных. Каждый образец будет представлен отдельной строкой в ​​матрице признаков X. Каждая функция хранится в виде отдельного столбца.

Итак, X принадлежат R 150x4

Дорожная карта для создания моделей машинного обучения

Существует 3 основных компонента построения модели машинного обучения.

а.) Предварительная обработка: все, что нужно для того, чтобы привести данные в правильную форму

Это один из самых важных шагов в любой модели машинного обучения. Наша цель — выделить значимые функции из набора необработанных данных.

При предварительной обработке мы сначала очищаем данные. Под очисткой данных я подразумеваю следующее:

(i) Удаление ошибочных значений

(ii) Удаление пустых значений

(iii) Нормализация диапазонов: преобразование значений в диапазоне [0,1].

(iv) Игнорирование выбросов

(v) Обеспечение правильной маркировки данных

(vi) Удаление сильно коррелированных и избыточных данных

Это далеко не исчерпывающий список.

Таким образом, здесь полезны методы Уменьшения размерности, чтобы сжать объекты в подпространство более низкого измерения. (Также читайте об соотношении сигнал/шум).

После очистки данных мы делим наш набор данных на две части

(i) Набор обучающих данных:

Набор обучающих данных используется для построения и обучения нашей модели машинного обучения.

Например, если мы проводим регрессионный анализ, модель узнает

(ii) Тестирование набора данных:

Тестовый набор данных используется для оценки нашей окончательной модели.

Часто разделение производится на основе случайного деления.

b.) Обучение (обучение):

Существует множество различных алгоритмов машинного обучения. Однако выбор алгоритма зависит от многих факторов, в том числе от самого экономического обоснования.

На практике мы сравниваем разные алгоритмы, чтобы обучить и выбрать наиболее эффективную модель. Однако мы должны четко понимать, как мы собираемся измерять результаты (и производительность). Одним из часто используемых показателей является точность. Точность определяется как доля правильно классифицированных экземпляров.

Каждый алгоритм поставляется с собственным набором параметров настройки, также называемых гиперпараметрами. Для начала существуют настройки по умолчанию, но мы меняем эти гиперпараметры в соответствии с производительностью нашего алгоритма.

c.) Оценка и прогноз:

После того, как мы доработаем наиболее эффективный алгоритм, мы используем наш тестовый набор данных, чтобы оценить, насколько хорошо он работает с невидимыми данными, чтобы оценить процент ошибок. Как только мы будем удовлетворены этим процентом ошибок, мы сможем использовать этот алгоритм для прогнозирования новых данных.

Важные пакеты Python для машинного обучения

В этой серии мы будем использовать язык python, так как это самый популярный язык. Мы будем использовать следующие библиотеки

1.) Scikit-learn

2.) Нампи

3.) Сципи

4.) Матплотлиб

5.) Панды

На этом заканчивается глава 1.

В главе 2 мы начнем с реализации алгоритма классификации и персептрона.

Увидимся завтра!

Ссылка на главу -1, день -1:https://medium.com/@gauravsharma_14869/whats-up-procurement-come-get-some-machine-learning-cuppa-b9523809ed09

Ссылка на главу -2:

https://medium.com/@gauravsharma_14869/chapter-2-machine-learning-algorithms-linear-regression-7fd4b53a0b5e

Примечание. В этой серии я использую книгу по машинному обучению Python, написанную Себастьяном Пашкой и Вахидом Мирджалили.