Обучение правилам для лучшей интерпретации моделей классификации в задачах управления персоналом.

Управление человеческими ресурсами играет ключевую роль в повышении эффективности любого предприятия. Поскольку Люди (сотрудники) выполняют все важные стратегические задачи на предприятии, используя технологии. Таким образом, проактивное и футуристическое видение роста и удержания кадровых ресурсов является ключом к долгосрочным перспективам организации.

В течение определенного периода времени HR-аналитика и автоматизация HR-процессов привлекают к себе повышенное внимание за счет использования решений автоматизации на основе аналитики для ускорения ручных HR-процессов.

Пришло время решить, какие кандидаты будут выбраны для собеседования с помощью Google Analytics, прежде чем вызывать их на собеседование.

Теперь сотрудники отдела кадров знают, сколько соискателей нужно вызвать на собеседование на вакансию.

Модель машинного обучения позволяет определить будущих высокоэффективных сотрудников в организации.

Методы машинного обучения широко используются для решения кадровых проблем от собеседования до планирования преемственности сотрудников. Некоторые модели машинного обучения довольно сложны для интерпретации специалистами по персоналу, например глубокое обучение, SVM, GBM и Ensemble. методы.

Хотя эти сложные модели обладают высокой степенью признания с точки зрения точности, специалисты отдела кадров конечных пользователей не могут ничего из этого извлечь. Они просто используют эти модели как методы черного ящика.

К счастью, машинное обучение также предоставляет модели, которые могут проверять и проверять специалисты по персоналу, и называемые обучением на основе правил. Модели обучения на основе правил также обеспечивают вполне сопоставимую точность со сложными решениями моделирования.

Из-за высокой степени интерпретируемости методов, основанных на правилах, они рассматривались как перейти к методу для проблем с персоналом. В частности, сотрудники отдела кадров могут видеть и проверять, что происходит в моделях, проверяя усвоенные правила с помощью своего опыта в предметной области.

Пожалуйста, помогите себе определить лучшую интерпретируемую модель среди моделей, представленных на рисунке ниже, используя набор данных послеоперационных пациентов.

Методы обучения, основанные на правилах, извлекают правила, которые важны при принятии решений по конкретной проблеме. С момента создания Дерева решений Росс Куинлан, названного ID3 и C4.5, решения, основанные на правилах и решениях, возникли и достигли новых высот. С течением времени был замечен огромный прогресс в существующих методах.

Давайте поговорим о методах моделирования на основе правил более подробно. Модели на основе правил формируют правила, которые может интерпретировать пользователь моделей.

Правило состоит из трех компонентов:

1. Функция со значением или диапазоном, или несколько значений / диапазонов функций соединены (И) или разделены (ИЛИ). Например, Java_experience ›3 года И last_employer_tier = первый И Номер обработанного проекта› = 5

2. Важность правила измеряет такой объем информации, коэффициент усиления, точность или охват.

3. Ярлык решения: результат правила.

Например, выученным правилом может быть следующее: будет ли кандидат выбран на должность Java-разработчика в качестве результата и Java_experience ›3 года И last_employer_tier = второй уровень И № проекта, обработанного как правило ›= 5, а точность 0,80 означает, что 80% кандидатов были выбраны из общего числа, которые были подпадать под установленное правило, основанное на их профиле в прошлом.

Изучение правил следует принципу индуктивного обучения правилам, при котором правила изучаются итеративно. Если бы я суммировал методы обучения на основе правил, в целом, есть два типа методов, которые я еще изучал:

1. Исчерпывающее изучение правил (поиск): этот тип методов находит оптимальное правило для полных точек данных, а затем находит другое оптимальное правило для тех же полных точек данных. Методы обнаружения подгрупп являются частью исчерпывающего изучения правил. Они относительно медленнее, чем другие методы противодействия, но в то же время у них есть возможность исследовать больше.

2. Жадное изучение правил. Этот тип методов работает по принципу «отделяй и властвуй». Они находят оптимальное правило, затем удаляют точку данных, соответствующую этому правилу, а затем продолжают поиск других правил. Они относительно быстрее извлекают важные правила, в то же время они неплохо справляются с точностью спуска. Примеры включают ID3, C4.5, PART, JRip, FOIL, NNGE и т. Д.

В этом блоге я собираюсь сосредоточиться на изучении правил на основе жадности. Прежде чем углубиться в эти алгоритмы. Нам необходимо понять ключевые концепции, используемые в этих алгоритмах (примеры используются только для объяснения, ничего не связанного с реальным миром).

1. Получение информации: если вы полюбите всю свою семью / родственников, вы будете счастливы, имея семью / родственников. Если половина членов семьи / родственников любит (своих родителей) или ненавидит (по законам), вы не знаете, что такое семья / родственники и как к ним подойти. Если никто (очень немногие) из семьи / родственника не любит вас, значит, рядом с вами никого нет. В первом и третьем случаях вы точно знаете, как воспринимают вас ваши родственники / родственники, тогда как во втором это сбивает вас с толку. В первом и третьем случаях информация высока, а во втором - низка. Получение информации - это мера неслучайности, достигаемая за счет использования определенной функции для определения окончательного результата.

2. Коэффициент усиления: используется как расширенная версия получения информации, которая снижает высокий объем информации, достигнутый из-за большого количества разветвлений, т.е. если вы собираете любовь, которую вы получаете со всего мира, например, из города предоставляет вам транспорт, общество обеспечивает вам безопасность, страна обеспечивает вам защиту, а нищий любит вас после того, как дал копейку. Тогда очень вероятно, что на пике будет либо любовь, либо ненависть, что не соответствует действительности, то есть никто не любит вас и все любят вас, и оба очень ожидаются, что выйдут наружу, но это неправда. его нужно наказать.

3. Точность и отзывчивость. Точность измеряет точное попадание в цель по охватываемым точкам данных. Отзыв измеряет правильные совпадения из общего количества доступных целей. Мы не можем полагаться на правило, которое идентифицирует одну точку данных, причем правильно. Мы также не можем взять правило, которое идентифицирует много точек данных, но очень немногие из них были правильными. Следовательно, необходим эффективный баланс между точностью и отзывчивостью.

Вышеупомянутые две концепции работают на уровне функций, а точность и отзыв используются на уровне правил.

Теперь я собираюсь поговорить о методах обучения правилам, доступных для задач классификации, которые можно легко применить с помощью инструмента машинного обучения WEKA. Немного изменив исходный код Weka, это изученное правило можно вывести для отображения на экране пользователя.

Жадные методы изучения правил:

C4.5 (J48 в Weka): на каждой итерации алгоритм разбивает набор данных на подмножества с помощью атрибута, имеющего наивысший коэффициент усиления. Каждое подмножество снова подразделяется на подмножества до тех пор, пока коэффициент усиления не улучшится или не ухудшится. Как только листовой узел найден (ни один из атрибутов не улучшает коэффициент усиления), он удаляет набор данных, покрытый корнем к листу, и продолжает формирование дерева на оставшемся наборе данных. После того, как дерево сформировано, он выполняет обрезку существующего дерева, чтобы улучшить обобщение.

Плюсы: быстрее из-за жадности, модель интерпретируема.

Минусы: может оказаться чрезмерным (можно контролировать с помощью фактора уверенности), поскольку хорошее локальное соответствие, достигнутое жадно, может плохо обобщать, а также не исследует полные данные о более позднем формировании дерева. .

Сформированное дерево можно преобразовать в набор правил от корня до всех листьев.

2. ЧАСТЬ: Как правило, использует C4.5 для построения лучшего листа и его формирования. Он также использует отдельные данные проверки для обрезки, чтобы уточнить сформированный корень до листа, чтобы улучшить обобщение. Отсечение, выполняемое PART, является локальным от корня к конкретному листу, в то время как в C4.5 отсечение выполняется на всем дереве. Он быстрее, чем C4.5, и сравним с C4.5 по точности.

3. RIPPER (Jrip): это расширение для сокращения количества ошибок, которое называется повторным добавочным сокращением для уменьшения количества ошибок. Сначала исследуются ярлыки класса с низкой долей. После выбора метки класса он делит набор данных на набор для роста и сокращения. Итеративно формирует набор правил для этого класса и останавливается, как только производительность в наборе данных Pruning стабилизируется. Точно так же, как только набор правил для всех сформированных классов, он выполняет глобальную оптимизацию набора правил, изменяя правила для набора правил, чтобы улучшить производительность обобщения. Этот алгоритм показывает довольно низкую точность по сравнению с PART и C4.5. Снова глобальная оптимизация, следовательно, медленнее, чем PART.

4. NNGE: он известен как невложенные обобщенные образцы. Он сильно отличается от описанных выше методов, поскольку учитывает расстояние с точки зрения диапазонов характеристик. Он формирует правило в виде экземпляра. Примером является гипер-прямоугольник, образованный путем определения верхней и нижней границ над признаками. Например, 3 года ›= Java_experience‹ = 6 лет И для уровня доступа ›= previous_employer_tiers‹ = второй уровень И 4 ›= Нет обработанного проекта ‹= 10, Затем выбран как старший разработчик Java с точностью 0,70. Эти примеры начинаются с рассмотрения точки данных, а затем итеративно границы либо растягиваются, либо сжимаются на основе обобщения существующего образца после вставки в него этих новых точек данных. Относительно медленнее, чем указанные выше методы, но может исследовать сложные правила принятия решений.

Модели, основанные на правилах, обладают высокой степенью интерпретируемости для конечного пользователя, и их также можно сделать более сложными для изучения скрытых идей в данных, эффективно управляя гиперпараметрами в модели. Например, мы можем извлечь сложные правила, установив коэффициент достоверности близким к 1 в C4.5, хотя он будет слишком большим. Он также предоставляет возможности для улучшения обобщения за счет сокращения и проверки, например регуляризации в сложных математических моделях.

Ключевые выводы: Вид проблем, требующих объяснения усвоенной модели. Модели обучения, основанные на правилах, в большей степени подходят для такого сценария. Решение HR, принятое против сотрудников, может быть оспорено. Методы обучения на основе правил могут предложить решение в качестве помощника HR для объяснения каждого возражения, демонстрируя правила принятия решений, применяемые во всей организации. В то же время обучение, основанное на правилах, также укрепит доверие у конечного пользователя, подтвердив компетентность в предметной области. Системы обучения на основе правил также могут быть эффективно развернуты в Аналитике здравоохранения и Аналитике судебных данных для поддержки процессов принятия решений.

Следовательно, заканчивается…

Не надо меня преследовать.

Просто следуйте идее, представленной выше, чтобы проверить и изучить ее в большей степени.

Я воспринимаю улучшения, разъяснения и предложения как признательность.

Спасибо за чтение

Обучение правилам для лучшей интерпретации моделей классификации в задачах управления персоналом.

Вопросы по теме