Я изучал концепции машинного обучения, которые выводят меня за рамки соревнований Kaggle, что мне очень нравится делать, но это ограничивает мою область знаний. Поэтому я решил изучить некоторые другие темы машинного обучения, такие как квантильная регрессия.

Квантильная регрессия — это статистический метод, используемый для моделирования взаимосвязи между переменными в наборе данных в разных квантилях распределения ответов. В отличие от обычной регрессии методом наименьших квадратов (OLS), которая фокусируется на оценке условного среднего значения переменной отклика с учетом предикторов, регрессия квантилей позволяет нам исследовать, как предикторы влияют на различные квантили распределения откликов.

В квантильной регрессии мы оцениваем условные квантили переменной отклика вместо оценки ее условного среднего значения. Это дает более полную картину взаимосвязи между переменными, особенно когда данные содержат выбросы или когда условное распределение несимметрично.

Основные характеристики и преимущества квантильной регрессии:

  1. Устойчивость к выбросам: квантильная регрессия менее чувствительна к выбросам по сравнению с регрессией МНК. Основное внимание уделяется оценке квантилей, которые более устойчивы к экстремальным значениям.
  2. Гибкость: оценивая условные квантили, квантильная регрессия может фиксировать различные отношения между переменными в разных частях распределения, что делает ее подходящей для наборов данных со сложными и разнородными отношениями.
  3. Без распределения: квантильная регрессия делает минимальные предположения о распределении переменной отклика, что делает ее в этом смысле непараметрическим методом.

Модель квантильной регрессии обычно формулируется следующим образом:

y_q = α_q + Xβ_q

где:

y_q представляет q-й квантиль переменной ответа.

α_q — точка пересечения в q-м квантиле.

X — матрица предикторов.

β_q — вектор коэффициентов, связанных с предикторными переменными для q-го квантиля.