Роль математики в машинном обучении

В настоящее время многие люди планируют переход к миру AI / ML / Data Science, который очень обнадеживает и соответствует темпам изменения мира.

Но этих людей сбивают с толку такие вопросы, как:

Я хочу быть специалистом по машинному обучению, не углубляясь в математику, возможно ли это?
Почему математика важна для науки о данных и в мире искусственного интеллекта / машинного обучения?
Как уже упоминалось, существует огромное количество библиотек для выполнения различных задач машинного обучения, поэтому легко избежать математической части поля.

Если вы задумались и над этими вопросами, эта статья для вас.

Различные задачи сложно решить с помощью традиционных методов программирования, таких как компьютерные игры, самоуправляемые автомобили, распознавание объектов. Один из способов - научить компьютеры учиться на данных, это машинное обучение.

Машинное обучение помогает Amazon предлагать вам продукты, Youtube рекомендует видео, классифицировать спам-почту и т. Д. Чтобы это стало возможным, мы сочетаем математику с большим количеством программирования.

Машинное обучение - это создание алгоритмов, которые могут изучать данные для прогнозирования. Машинное обучение построено на математических предпосылках.

Математика важна для решения проекта Data Science, вариантов использования Deep Learning. Математика определяет основную концепцию алгоритмов и говорит, какой из них лучше и почему.

Что ж, вы можете создавать модели, даже не зная математики, лежащей в основе работы алгоритмов, но подождите ... Как вы узнаете, какой из них лучше и где его использовать?

Позвольте мне очистить воздух. Чтобы стать специалистом по данным, вам необходимо разбираться в математике алгоритмов машинного обучения. Нет никакого способа обойти это. Это фундаментальная часть роли специалиста по обработке данных, и каждый рекрутер и опытный специалист по машинному обучению ручается за это.

Машинное обучение строится на основе следующих четырех столпов математики:

Линейная алгебра
Исчисление
Статистика
Вероятность

Линейная алгебра. Она позволяет алгоритмам работать с массивными наборами данных.

Линейная алгебра встречается повсюду в мире машинного обучения
Без линейной алгебры невозможно разработать методы машинного обучения, невозможно обрабатывать сложную структуру данных и манипулировать ею, невозможны матричные операции с большими наборами данных.
Понятия линейной алгебры, которые необходимо знать - векторы, векторные пространства, скаляры, ортонормализация, матричные операции, проекции, собственные значения и собственные векторы и т. Д.

Линейная алгебра выступает в качестве сцены или платформы, на которой все алгоритмы машинного обучения отображают свои результаты.

Но почему именно линейная алгебра?

Линейная алгебра может преобразовывать наборы данных в матрицы, над которыми можно выполнять несколько операций. NumPy - это такая библиотека, используемая в машинном обучении, которая выполняет несколько операций с массивом N-d.

Исчисление: используется для точной настройки результата. Это оптимизирует производительность алгоритма.

Исчисление играет неотъемлемую роль во многих алгоритмах машинного обучения, таких как алгоритм градиентного спуска и обратное распространение для обучения нейронных сетей с глубоким обучением.
Знания о расчетах помогают оптимизировать работу модели.
Понятия исчисления, которые необходимо знать - дифференциальное и интегральное исчисление, частные производные, векторные функции, направленный градиент, якобиан и т. Д.

В машинном обучении мы пытаемся найти входные данные, которые позволяют функции наилучшим образом соответствовать данным. Наклон или спуск описывает скорость изменения выхода по отношению к входу. Определение влияния каждого входа на выход также является одной из важнейших задач. Все это требует твердого понимания многомерного исчисления.

Например:

Линейная регрессия - это линейная модель, которая устанавливает связь между зависимой переменной y (Target) и одной или несколькими независимыми переменными, обозначенными X (Входные данные) с использованием наиболее подходящей прямой (также известной как линия регрессии).

Этот алгоритм показывает, как исчисление используется для поиска уклона, градиентного спуска и работы с этим алгоритмом.

Вероятность. Это помогает прогнозировать вероятность будущих событий в машинном обучении.

Основными источниками неопределенных событий, которые вносят несовершенство в модели машинного обучения, являются шумы и недостаток соответствующих данных.
Понятия вероятности, которые необходимо знать - совместная, предельная и условная вероятность, распределения вероятностей (дискретное, непрерывное), оценка плотности, оценка максимального правдоподобия, регрессия с максимальным правдоподобием, теорема Байеса и т. Д. Мы используем их для проверки гипотез, где понимание вероятности очень важно.

Наивный алгоритм Байеса представляет собой пример, который работает по аналогичному принципу, с простым предположением, что все входные функции независимы.

Статистика: статистику можно использовать для логических выводов из предоставленных данных.

Статистика - это набор инструментов, который помогает определить цель на основе имеющихся данных и информации.
Статистика помогает понять анализ данных и преобразовать выборочные наблюдения в значимую информацию.
Ни в одной системе в мире нет идеальных данных, хранимых и легко доступных по мере необходимости. В каждой системе есть аномалии данных, такие как неполные, поврежденные данные и т. Д. Статистические концепции станут вашим лучшим другом в таких сложных ситуациях.
Он помогает ответить на такие вопросы, как:
1. Какой продукт был самым продаваемым в любой конкретный месяц?
2. Кто набрал больше всего пробежек в турнирах по крикету?
Статистические концепции, которые необходимо знать - распределение, центральная тенденция, асимметрия, коэффициент линейной корреляции, центральная предельная теорема, проверка гипотез и т. Д.

Статистика - это наиболее часто используемая часть алгоритмов машинного обучения. Роль аналитика данных заключается в том, чтобы делать выводы / вопросы на основе предоставленных данных, и он / она зависит от статистики для этого.

Вывод

Математика для машинного обучения - важный аспект, который часто упускается из виду или к нему подходят с неверной точки зрения.

В качестве мягкого предварительного условия ожидается, что человек должен иметь четкое представление об этих математических концепциях.

Это не значит, что вам нужно просматривать школьные заметки и перебирать теоремы. Лучший способ познакомиться с математикой - это взять алгоритм машинного обучения, найти вариант использования, решить и понять математику, лежащую в его основе.

Когда кто-то сталкивается с реальными проблемами в машинном обучении, их становится легко решить, если он / она хорошо понимает и интуитивно понимает математические концепции. Это также улучшает навыки решения критических проблем.

Роль математики в машинном обучении

Но почему именно линейная алгебра?

Вывод

Вопросы по теме