Анализ основных компонентов (PCA) — это метод уменьшения размерности, используемый в машинном обучении для преобразования данных из пространства более высокой размерности в пространство более низкой размерности.

Сложность алгоритма зависит от размера выборки данных (N) и количества входных измерений (d). Уменьшение размерного пространства алгоритма уменьшает память и вычисления.

PCA определяется как ортогональная проекция данных на более низкое измерение.

Проекция

Методы проекции отображают входные данные в исходном d-мерном пространстве в новое k-мерное пространство, где k‹d, так что потеря информации минимизируется. Проекция d-мерной нормали на вектор w является одномерной.

Параметры нормального распределения μ и Σ представляют собой среднее значение и дисперсию соответственно. Мы можем записать проекцию на направление w в виде

Главный компонент

Главный компонент, w1, таков, что выборка, пост-проекция, наиболее разнообразна. Для единственного решения необходимо, чтобы ∥w∥ = 1.

Чтобы максимизировать дисперсию, мы должны сначала выразить это как задачу Лагранжа:

Дифференцируя по w1 и приравнивая его к 0, мы получаем

Это верно, если w1 является собственным вектором Σ и α является соответствующим собственным значением. Чтобы максимизировать дисперсию, мы используем собственный вектор с наибольшим собственным значением. Следовательно, мы можем сказать, что главный компонент — это собственный вектор ковариационной матрицы входной выборки с наибольшей собственным значением.

В общем случае мы определяем для матрицы W размера k × d с рангом k ‹ d,

где столбцы W — это k ведущих собственных векторов S, оценка для Σ, и m — выборочное среднее для центрирования данных на Происхождение. Чтобы нормализовать дисперсии компонентов w1, w2, …, wk, мы делим их на квадратные корни собственных значений.