Простой способ понять анализ основных компонентов (АПК) и его применение в машинном обучении.

Данные - новая нефть. В каждой сфере жизни данные растут с каждым днем, порождая в себе огромное количество информации. Требуется извлечь только ту информацию, которую необходимо обработать, сохранив исходные признаки и уменьшив размер набора данных, что и делает PCA.

Этот атрибут PCA в основном используется в машинном обучении, поскольку он уменьшает объем данных, обрабатываемых алгоритмами машинного обучения. PCA также уменьшает шум в данных, что делает алгоритмы машинного обучения более эффективными. Преобразованные данные PCA снизят вероятность переобучения в модели машинного обучения, поскольку исключают функции с высокой корреляцией.

PCA — это широко используемый метод уменьшения размерности, сжатия данных с потерями и извлечения признаков. Цель этого метода состоит в том, чтобы проецировать данные на пространство меньшего размера, максимизируя дисперсию проецируемых данных. Основные компоненты — это лежащие в основе структуры данных, которые представляют направление, в котором присутствует наибольшая дисперсия, и то, как данные наиболее распространены.

Просто чтобы дать вам представление, если у нас есть набор данных с 1000 строк и 1000 столбцов в нем, каждый столбец представляет функцию в наборе данных. Используя PCA, мы можем уменьшить размер набора данных менее чем наполовину, то есть, скажем, до 450 столбцов, охватывающих более 90% информации исходного набора данных в этих столбцах в разных проекциях осей PCA. Мы можем дополнительно уменьшить размер до 200 столбцов или функций, захватив, скажем, более 80% исходной информации набора данных.

Различные наборы данных будут иметь разное количество редукций в зависимости от типа имеющихся у них данных, набор данных с высокой дисперсией будет иметь большое количество осей основных компонентов, набор данных с низкой дисперсией разброса будет иметь небольшое количество осей PC. Вместе с этим уменьшается и шум в данных. Мы также можем обратно преобразовать данные из PCA в не-PCA в исходные координаты с некоторой потерей информации в прежний набор данных 1000x1000.

PCA фиксирует дисперсию всех признаков/столбцов исходного набора данных, вычисляет собственные значения и собственные векторы для каждого из признаков/столбцов в наборе данных. Столбец с большим количеством дисперсий будет иметь более высокие собственные значения, а столбец без дисперсии будет иметь нулевое собственное значение. Собственный вектор, который имеет самые высокие собственные значения, будет осью главного компонента. PCA отбрасывает собственные векторы или функции с меньшим количеством собственных значений, поскольку в нем не содержится много информации. N-мерные данные будут иметь N собственных векторов.

Поскольку мы отбрасываем собственные векторы с меньшими значениями, размер набора данных, следовательно, значительно уменьшается, сохраняя почти всю информацию в сокращенных данных. Дисперсия и ковариация исходных данных сохраняются в преобразованных данных PCA. Он выполняет ортогональное преобразование данных, которое преобразует набор коррелированных переменных в набор некоррелированных переменных.

Мы можем передать сокращенный набор данных PCA в алгоритм машинного обучения для эффективной и быстрой обработки. PCA используется в машинном обучении для обработки изображений, компьютерного зрения или любых данных с большим количеством функций.

Уравнение собственного значения и собственного вектора.

Квадратная матрица n x n A.

Ax= λx

A — ковариационная матрица исходного набора данных.

X = собственный вектор

λ = собственное значение