Предположим, вы хотите улучшить ключевые показатели эффективности, такие как продажи, удовлетворенность клиентов, лояльность к бренду и т. д. В этом случае крайне важно понять, какие факторы побуждают его принимать решения, основанные на данных, и надлежащее вмешательство.

Точно для той же цели был разработан статистический метод, то есть анализ ключевых факторов, который количественно определяет относительную важность каждой переменной-предиктора при прогнозировании целевой переменной.

В этой статье я постараюсь подробно ответить на следующие вопросы.

  1. Что такое анализ ключевых факторов?
  2. Чем она отличается от традиционных моделей прогнозирования?
  3. Какие типы целей поддерживаются для выполнения анализа ключевых факторов?
  4. Как выполнить анализ ключевых факторов?
  5. И наконец, какой метод рекомендуется для выполнения анализа ключевых факторов?

Что такое анализ ключевых факторов?

Анализ ключевых факторов также известен как анализ важности и анализ относительной важности. Целью этого анализа является количественная оценка относительной важности каждой из переменных-предикторов при прогнозировании целевой переменной. Каждый из предикторов обычно называют драйвером.

Как правило, результатом анализа ключевых факторов является таблица или диаграмма, показывающая относительную важность факторов (предикторов).

Чем она отличается от традиционных прогностических моделей?

В классических прогностических моделях основное внимание уделяется предсказанию. Напротив, при анализе ключевых факторов основное внимание уделяется определению относительной важности предикторов (факторов).

Какие типы целей поддерживаются для выполнения анализа ключевых драйверов?

Анализ ключевых драйверов может быть выполнен практически для всех типов целевых типов: бинарных, категориальных и числовых.

Как выполнить анализ ключевых драйверов?

Анализ ключевых драйверов можно выполнить с помощью любого из следующих методов.

  1. Корреляции — уместны, когда нас не волнует мультиколлинеарность.
  2. Коэффициент/индекс Жаккара. Похоже на корреляцию, за исключением того, что он подходит только тогда, когда и предиктор, и переменные результата являются бинарными.
  3. Обобщенные линейные модели (GLM) Чтобы провести достоверный анализ ключевых факторов, нам нужно выбрать подходящую обобщенную линейную модель (GLM), которая согласуется с нашими данными. Линейная регрессия — для непрерывной целевой переменной Логистическая регрессия — для бинарной целевой переменной. Квазипуассоновская регрессия — для десятичной целевой переменной. Упорядоченная логистическая регрессия — для рейтинговой или упорядоченной числовой целевой переменной.
  4. Shapely Regression — регуляризованная регрессия, разработанная для ситуаций, когда результаты линейной регрессии ненадежны из-за высокой корреляции между предикторами.
  5. Относительные веса Джонсона. Подобно регрессии Шепли, это регуляризованная регрессия, которую можно использовать для всех типов целевых переменных.

Использование обобщенных линейных моделей (GLM)

Как правило, когда мы строим GLM, коэффициенты часто бывают отрицательными; однако в случае анализа ключевых факторов это указывает на наличие проблемы.

Возможные причины: 1. Неверный знак, Переменная-предиктор сильно коррелирует с другими предикторами.Предиктор не важен. 2. Переменная-предиктор закодирована неправильно.

Недостатки использования GLM для анализа ключевых факторов:

  1. GLM становятся очень ненадежными, когда предикторы сильно коррелированы (мультиколлинеарность) и имеют тенденцию улавливать случайные закономерности в данных, отсюда вероятность неправильных признаков.
  2. GLM неявно предполагают, что предикторы находятся в одном масштабе. Таким образом, становится трудно сравнивать коэффициенты напрямую. Самый популярный способ решить эту проблему — разделить каждое значение предиктора на его стандартное отклонение (т. е. нормализовать или стандартизировать переменные), но это не обязательно решает проблему.

Решение двух вышеуказанных проблем состоит в том, чтобы не использовать GLM 😊, а вместо этого использовать модели, которые более надежны при наличии высоких корреляций и могут обрабатывать функции в разных масштабах, такие как регрессия Шепли и относительные веса Джонсона. Эти методы не решают проблему коррелированных предикторов. Вместо этого они гарантируют, что вы получите стабильные результаты при наличии коррелированных предикторов. На концептуальном уровне они делают это, вычисляя оценки важности как средневзвешенное значение предикторов, где веса определяются степенью взаимной корреляции между предикторами.

Использование регрессии Шепли или относительных весов Джонсона

Как упоминалось ранее, традиционные GLM страдают от двух практических проблем: чувствительности к высоким корреляциям между переменными-предикторами и чувствительности к масштабу переменных-предикторов. Обе проблемы можно решить, используя либо регрессию Шепли, либо относительные веса Джонсона.

Лежащая в основе математика как регрессии Шепли, так и относительного веса Джонсона гарантирует, что оба метода всегда дают положительную оценку важности.

Наконец, какой метод рекомендуется для выполнения анализа ключевых драйверов?

И регрессия Шепли, и относительные веса Джонсона предназначены для решения одних и тех же двух проблем: корреляции между переменными-предикторами и переменными-предикторами с разными шкалами.

Лежащие в основе этих двух методов теории совершенно различны.

  • Регрессия Шепли основана на выполнении множества линейных регрессий с различными подмножествами переменных-предикторов.
  • Относительные веса Джонсона представляют собой ортонормированное вращение переменных-предикторов.

Тем не менее, два метода дают идентичные результаты, поэтому нет необходимости разбираться в тонкостях двух методов, чтобы выбрать один. Однако между этими методами есть два практических различия:

  • Регрессия Шепли применима только к линейной регрессии.
  • Относительный вес Джонсона подходит для любого GLM.
  • Относительные веса Джонсона вычисляются намного быстрее, чем регрессия Шепли.

По этим причинам мы предпочитаем всегда использовать относительные веса Джонсона 💪 для анализа ключевых факторов.

Важно: хотя теоретические предположения относительных весов Джонсона и регрессии Шепли предполагают положительную оценку важности. Иногда мы можем видеть отрицательные коэффициенты, что является явным признаком того, что анализ ключевых драйверов неверен.

Рекомендации