Машинное обучение для моделирования убыли сотрудников

Практическое применение данных о занятости и понимание инвестиций в удержание сотрудников.

Часть 1: Проблема данных

Человеческие ресурсы и анализ персонала — это область, которую организации часто упускают из виду при применении методов машинного обучения и искусственного интеллекта для поиска бизнес-идей. Делая инвестиции, компании прилагают огромные усилия для исследования технологий, закупки программного обеспечения, оборудования и инфраструктуры в качестве основы своей следующей инициативы или проекта, но редко такие же строгие принципы применяются к сотрудникам после того, как они были приняты на работу. Тем не менее, заработная плата часто является самой большой статьей расходов организации, а способности, целеустремленность и производительность сотрудника лежат в основе большей части деятельности. Точно так же, как компании начинают контролировать и автоматизировать свои операции, мы можем начать моделировать рабочую силу.

SFL Scientific позволяет организациям оценивать свои возможности данных, разрабатывать варианты использования и проводить технологический аудит своих текущих процессов в подразделениях и бизнес-направлениях. Цель состоит в том, чтобы определить и сосредоточиться на прототипах, ориентированных на бизнес, и их интеграции обратно в компанию с технологической точки зрения, создавая новые системы или продукты на основе их данных с помощью автоматизации и машинного обучения. Мы помогаем бизнес-лидерам понять и оценить области для ускорения этого технического роста.

Часто трудности в этом процессе связаны со сбором правильных наборов данных: информация о сотрудниках, биографические данные и демографические данные, методы найма, зарплаты, продвижения по службе, должности и т. д. Все это можно использовать для исследования и построения моделей, которые помогут организациям и их руководителям отдела кадров. Сотрудник (CHRO) или Cглавный сотрудник по подбору персонала разрабатывают более совершенные политики и оценивают бюджеты. Для организаций, которые имеют в виду варианты использования, но не полностью реализовали свой потенциал, никогда не поздно (и никогда не было так просто) создавать архитектуры и системы для сбора информации.

Простым примером является изучение текучести и текучести кадров. Увольнение сотрудников - это скорость, с которой сотрудники покидают компанию, как правило, увольнение относится к сотрудникам, увольняющимся из нормального жизненного цикла занятости, и является частью более широкого анализа текучести кадров. Текучесть часто имеет решающее значение для большого количества сотрудников, например, в розничной торговле, или для понимания пакетов льгот, профсоюзной деятельности и оптимизации практики управления персоналом. Увольнение также может повлиять на решения компании в областях с более высокой квалификацией, особенно там, где привлечение и удержание лучших специалистов имеет решающее значение для исследований и разработок, юридических, финансовых или управленческих операций.

Целью этого анализа является моделирование отсева сотрудников и определение наиболее важных факторов, влияющих на эту текучесть кадров. Преимущества для компании существенны: не только сохраняются лучшие кадры, но и могут быть значительно снижены затраты на подбор и обучение. Благодаря такого рода анализу мы можем понять, сколько сотрудников могут уволиться, а также определить, какие сотрудники подвергаются наибольшему риску и по каким причинам.

Компании несут значительные затраты на поиск, собеседование и найм новых сотрудников. Мы начнем с хорошего предположения, что компания сильно мотивирована удерживать своих сотрудников в течение значительного периода времени в результате адаптации, обучения и интеграции, а также накладных расходов. Этот анализ особенно полезен, если компания хочет снизить уровень текучести кадров, но не уверена в источнике проблемы. И наоборот, если компании необходимо снизить затраты на рабочую силу и численность персонала посредством структурирования компании, то понимание убыли сотрудников может облегчить переход, подготовив затронутые группы к потере персонала.

Исследовательский анализ данных

В качестве примера того, что можно сделать, мы решили изучить набор данных с открытым исходным кодом, который можно найти здесь. Затем мы создали простое приложение Shiny для визуализации результатов, но можно использовать любой фреймворк или инструмент.

Набор данных содержит несколько фрагментов информации о каждом сотруднике, таких как его отдел, удовлетворенность работой, годы работы в компании, баланс работы и личной жизни и т. д. Из всего этого есть пять, которые можно использовать для подмножества пользователей в нашем приложении Shiny: возраст, пол, уровень образования, ежемесячный доход и семейное положение. Обратите внимание, что мы не рекомендуем использовать в наборе данных более трех (3) параметров, поскольку данные, удовлетворяющие условиям, могут отсутствовать.

С точки зрения анализа машинного обучения данные должны быть изначально очищены, прежде чем их можно будет использовать. Для большинства проектов очистка и понимание данных часто являются наиболее трудоемким аспектом всего процесса. Как правило, специалист по данным должен заполнить пропущенные значения, понять (потенциально отбросить) выбросы, исправить ошибочные, исправить проблемы с форматированием и стандартизировать категории. Цель состоит в том, чтобы сделать данные как можно более согласованными и релевантными по всем направлениям, и это обеспечит максимальную точность окончательной модели.

Сначала мы проводим исследовательский анализ набора данных с использованием визуальных инструментов, что позволяет нам суммировать основные характеристики набора данных. Отсюда мы выполняем моделирование машинного обучения, которое определяет вероятность того, что каждый человек будет увольняться, таким образом, выявляя наиболее важные факторы, которые приводят к общей текучести кадров. Основываясь на потребностях работодателя, этот анализ также может быть сужен для определения ключевых факторов, влияющих на отсев для определенных демографических групп, должностей, рабочих групп и даже конкретных лиц.

Приведенная выше матрица корреляции отображает линейную корреляцию между каждой парой признаков в виде точек разного цвета и размера. Точка большего размера указывает на то, что корреляция между этими выбранными функциями сильнее, тогда как цвет обозначает силу положительного (синий) или отрицательного (красный) коэффициента корреляции. Когда две переменные коррелируют, мы, по сути, наблюдаем, что изменение одной переменной сопровождается изменением другой. В этой большой матрице ясно, что большинство признаков не коррелированы. Однако даже для тех переменных, которые коррелируют, следует соблюдать осторожность при интерпретации корреляции, поскольку она не обязательно подразумевает причинно-следственную связь.

Это приложение имеет дополнительную функциональность: если щелкнуть любой элемент в матрице корреляции, отображается двумерная гистограмма, чтобы лучше наблюдать корреляцию между этими функциями. Корреляция между переменными позволяет нам определить перекрытие между функциями в наборе данных. В общем, алгоритм машинного обучения должен получать как можно больше некоррелированной информации, чтобы максимизировать точность прогнозирования.

В качестве альтернативы, щелчок по элементам вдоль ведущей диагонали выведет графики скрипки выбранных функций, разбитых на группы по истинному базовому значению убыли (1 указывает на уволенных сотрудников, а 0 указывает на оставшихся). На рисунке 3 ниже показаны графики для переменной WorkLifeBalance с теми из них, которые заставляют организацию иметь меньше средних показателей. В отличие от коробчатых диаграмм, диаграммы-скрипки показывают полное распределение данных, что особенно полезно, если данные являются мультимодальными. Если бы мы захотели, мы могли бы даже переопределить истощение, включив в него диапазоны среднего уровня и построить графики скрипки этих уровней.

Часть 2: Моделирование данных с помощью машинного обучения

В этом примере исследования мы используем несколько популярных алгоритмов для моделирования отсева сотрудников: экстремальное повышение градиента (XGBoost), методы опорных векторов (SVM) и логистическая регрессия. XGBoost — это алгоритм на основе дерева решений, в котором несколько деревьев объединяются для повышения прогностической способности модели. SVM — это дискриминационный классификатор, который берет помеченные обучающие данные и строит гиперплоскость для категоризации новых примеров. Наконец, логистическая регрессия — это простой классификатор, используемый для оценки вероятности бинарного результата на основе нескольких предикторов и логит-функции.

Все три алгоритма являются контролируемыми методами обучения — они берут набор размеченных данных, в данном случае исторические данные о людях, которые либо покинули компанию, либо остались, и изучают основные закономерности в доступных данных — в данном случае из такие характеристики, как возраст, должность, сверхурочная работа и т. д. Этот тип анализа часто упускается из виду при изучении или мониторинге неэффективных подразделений, офисов или при принятии инвестиционных решений при перемещении сотрудников и запуске новых предприятий.

Генерация признаков — важный аспект моделирования в машинном обучении. При создании функций мы берем данные и либо разлагаем, либо агрегируем их, чтобы ответить на основной вопрос. В данном конкретном случае, поскольку мы хотим знать, почему сотрудники увольняются, мы создаем функции, объясняющие это явление. Особенности должны быть значимыми; иными словами, они являются важной частью наблюдения, которое помогает модели узнать о структуре проблемы.

После создания функций мы можем понять общее влияние функций. Библиотека для одного из используемых нами алгоритмов, XGBoost, имеет встроенную функцию ранжирования, которая ранжирует важность функций, и мы можем использовать ее для ручного устранения избыточных функций. Выполнение этих задач дает огромные преимущества, такие как скорость и упрощение модели, а также обеспечивает большее обобщение за счет снижения вероятности переобучения.

Когда дело доходит до построения модели, необходимо предпринять несколько шагов, прежде чем можно будет делать какие-либо прогнозы. Данные разделены на три набора: обучение, проверка и тестирование. Обучающий набор отвечает за первоначальное обучение модели причинно-следственной связи между всей информацией и вероятностью истощения. Затем проверочный набор используется для оценки того, насколько хорошо модель обучена, и точной настройки параметров для разработки наилучшей модели. После выполнения этих двух шагов готовая модель применяется к набору тестов, чтобы получить точные результаты о том, как модель будет работать на реальных данных. В этом случае мы можем предсказать вероятность того, что любой сотрудник покинет компанию, основываясь исключительно на количественных данных, собранных отделом кадров.

Тонкая настройка результатов

Каждый алгоритм дает оценку достоверности от 0 до 1 для каждого сотрудника, что указывает на то, что модель считает, что эти люди уйдут с вероятностью от 0% до 100% соответственно. Установив пороговое значение оценки достоверности, выше которого мы прогнозируем увольнение сотрудника, мы в конечном итоге получаем контроль над статистикой точности и отзыва, а отсечение можно корректировать в режиме реального времени для оптимизации модели в соответствии с потребностями бизнеса.

В истинном анализе эти алгоритмы будут дополнительно настроены и потенциально объединены, чтобы обеспечить максимально точное прогнозирование увольнения сотрудников. Пока их можно сравнить с помощью графических графиков.

Кривая рабочей характеристики приемника (ROC) является результатом построения графика истинной положительной скорости против ложноположительной скорости. Чем ближе кривая ROC к верхнему левому углу, тем выше точность теста.

Ползунок позволяет пользователю изменить рабочую точку алгоритма, установив частоту ложных срабатываний. Изменения, внесенные в эту отсечку, отражены в показанных матрицах путаницы, где каждая матрица путаницы показывает эффективность предсказаний различных алгоритмов по отношению к истинной метке.

Другой способ визуализировать этот результат — посмотреть на точность и припоминание. Эти две статистики являются важными аспектами любой модели классификации и являются компонентами общей оценки F1, определяемой по формуле:

Идеальная модель обладает как высокой точностью, так и полнотой, чего часто трудно достичь. Вместо этого мы можем напрямую изменить точку отсечки, чтобы обменять некоторую точность на отзыв, и наоборот. Управляя компромиссом между ложными положительными и ложными отрицательными результатами, предприятия могут определить, в каком направлении следует искажать анализ.

Как и в случае с ROC-кривой на рис. 5, мы предоставили матрицы путаницы для каждого алгоритма, чтобы пользователь мог увидеть влияние изменений порога отсечки на окончательные результаты. Например, в приложениях для здравоохранения, где невыявленные проблемы имеют гораздо большее значение, чем чрезмерная осторожность с вариантами лечения, мы можем сместить рабочую точку влево, где мы найдем гораздо меньше ложноотрицательных (но больше ложноположительных) случаев. И наоборот, в этом случае для предприятий с очень ограниченными ресурсами может быть лучше пойти на меньшее количество ложных срабатываний (справа от кривой), ранжировать оценки достоверности, полученные с помощью необработанного алгоритма, и нацеливаться только на сотрудников с самым высоким риском с стимулы.

Показатель достоверности можно комбинировать или дополнять любыми показателями HR или занятости, чтобы получить ожидаемое значение потерь на человека. Затем мы можем использовать это для ранжирования сотрудников с точки зрения ценности компании, которая, вероятно, будет потеряна. В конечном итоге это обеспечивает порог покупательной способности, к которому отделы должны иметь доступ для удержания каждого конкретного сотрудника и информирования общего бюджета, а также для помощи в прогнозировании финансовых последствий в долгосрочной перспективе.

Чтобы активно решать общие проблемы удержания сотрудников, нам необходимо более внимательно изучить наиболее важные функции, определяющие вероятность увольнения, и посмотреть, можем ли мы улучшить удержание сотрудников в компании.

Важность функции

Одним из преимуществ использования XGBoost является оценка важности функций. Метрика важности дает оценку, указывающую, насколько ценным был каждый фактор при построении усиленных деревьев решений. Более высокая относительная важность указывает на большее влияние на алгоритм и окончательный прогноз. Поскольку важность рассчитывается для каждого атрибута явно, эти атрибуты можно ранжировать и сравнивать друг с другом.

Когда модель запускается на всем наборе данных, результаты показывают, что атрибуты сотрудника «Семейное положение», «Количество компаний, в которых он работал» и «Возраст» являются доминирующими факторами увольнения сотрудников для этого набора данных. Что касается регулируемых параметров HR, мы отмечаем, что корректировки «вовлеченности в работу», «опционов на акции» и «ежемесячного дохода» или заработной платы могут использоваться в качестве стимулов для ценных сотрудников. Хотя это кажется здравым смыслом, мы можем смоделировать, как эти стимулы действуют с течением времени, чтобы отслеживать их влияние и эффективность и лучше понимать, какие соотношения, ценности и сроки должны применяться. В дополнение к этому мы можем использовать аналогичные методы важности характеристик для создания рейтинга контролируемых факторов для конкретного сотрудника, который затем можно использовать для таргетинга сотрудников на основе описания работы, стажа работы и индивидуального подхода.

Конечным результатом работы классификатора может быть ранжированный список лиц, которые, скорее всего, уволятся, а также ранжированный список факторов, влияющих на вероятность увольнения каждого сотрудника. И то, и другое очень полезно для любого отдела, стремящегося свести к минимуму потерю талантов, финансовые последствия и, в конечном итоге, улучшить работу.

О SFL Scientific

SFL Scientific — компания, предоставляющая консалтинговые и профессиональные услуги в области обработки данных, предоставляющая широкий спектр решений в области обработки данных, машинного обучения и искусственного интеллекта. Мы разрабатываем, прототипируем, интегрируем и управляем сложными решениями ИИ, используя новейшие технологии. SFL Scientific создает возможности для организаций, предоставляющих основанные на данных инструменты, продукты, диагностические системы и операционные результаты. SFL Scientific является предпочтительным поставщиком услуг глубокого обучения для NVIDIA и консультационным партнером по машинному обучению для Microsoft и AWS.

Для получения дополнительной информации свяжитесь с нами по адресу www.sflscientific.com.