Привет Читатель! LightGBM, XGBoost и Catboost являются одними из самых известных алгоритмов дерева решений с градиентным усилением.

Объединение: означает объединение нескольких деревьев в одну единую модель. Но подождите... Зачем нам несколько деревьев, а не одно большое дерево? Ответ заключается в том, что вариативность многих простых/слабых и особенно нелинейных обучающихся может вместе превзойти одного (и, как правило, слишком приспособленного) сложного/сильного обучающегося.

Для ансамблирования используются две техники:

а. Бэггинг: здесь цель состоит в том, чтобы создать несколько подмножеств данных из обучающей выборки, выбранной случайным образом с заменой. Каждый набор данных подмножества используется для обучения их деревьев решений. В итоге получаем ансамбль из разных моделей. Используется среднее значение всех прогнозов из разных деревьев, что является более надежным, чем классификатор одного дерева решений.

б. Повышение: в этом методе учащиеся изучаются последовательно, когда учащиеся раннего возраста подгоняют простые модели к данным, а затем анализируют данные на наличие ошибок. Последовательные деревья (случайная выборка) подходят, и на каждом шаге цель состоит в том, чтобы повысить точность по сравнению с предыдущим деревом.

Что такое дерево решений?

Дерева решений (DT) — это непараметрический контролируемый метод обучения, используемый для классификации и регрессии. Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой переменной, изучая простые правила принятия решений, выведенные из характеристик данных.

Параметры и гиперпараметры классификатора LightGBM

1.Task: этот параметр используется для определения выполняемого действия. Значение по умолчанию — «поезд». Некоторые другие возможные значения включают в себя: predict, refit, save_binary и т. д.

2. Тип повышения: значение по умолчанию — «gbdt». Другие значения включают

2а. Дарт: А именно, gbdt страдает от чрезмерной специализации, что означает, что деревья, добавленные на более поздних итерациях, имеют тенденцию влиять на предсказание только нескольких экземпляров и вносят незначительный вклад в оставшиеся экземпляры. Добавление исключения затрудняет специализацию деревьев на более поздних итерациях на этих нескольких выборках и, следовательно, повышает производительность. Подробнее: https://arxiv.org/abs/1505.01866

2б. Госс:Стандартный gbdt надежен, но недостаточно быстр для больших наборов данных. Следовательно, госс предлагает метод выборки, основанный на градиенте, чтобы избежать поиска во всем пространстве поиска. Мы знаем, что для каждого экземпляра данных, когда градиент мал, это означает, что не стоит беспокоиться, данные хорошо обучены, а когда градиент велик, их следует заново обучить. Таким образом, у нас есть две стороны, экземпляры данных с большим и малым градиентом. Таким образом, goss хранит все данные с большим градиентом и делает случайную выборку (поэтому она называется односторонней выборкой) на данных с небольшим градиентом. Это делает пространство поиска меньше, и госс может сходиться быстрее. Наконец, чтобы получить больше информации о goss, вы можете проверить этот пост в блоге.

3. Цель:тип этикетки, которой пытается соответствовать ваша модель. Например. если вы выполняете задачу классификации, ваша цель может быть «бинарной» или «мультиклассовой». Для регрессии цель устанавливается как «регрессия».

4. Случайное состояние: используется для создания начальных значений для генерации случайных чисел в алгоритме. Установка случайного фиксированного случайного состояния помогает гарантировать, что вы получите точно такую ​​же модель, учитывая, что другие факторы (такие как обучение, проверка, тест и другие гиперпараметры) являются постоянными.

5. N_Jobs (целое число, необязательно (по умолчанию=-1)) — количество параллельных потоков, используемых для обучения.

6. Метрика:метрика(ы), подлежащая оценке в наборе(ах) оценки. Например. Логлосс, AUC, MSE и т. д.

7. Монотонные ограничения: используется для ограничений монотонных функций. Например, если X является одним из числовых признаков для прогнозирования цели регрессии Y, и мы знаем (из логических рассуждений или статистических данных), что X и Y имеют |корреляцию| = 1, мы можем установить монотонное ограничение на функцию X.

8. Bin_construct_sample_cnt:количество данных, выбранных для построения интервалов гистограммы. Уменьшение значения этого параметра обычно снижает время обучения и точность.

9. Cat_l2:регуляризация L2 в категориальном разделении. Переобучение можно решить, увеличив этот параметр.

10. Cat_smooth: это может уменьшить влияние шума на категориальные функции, особенно для категорий с небольшим количеством данных. Этот параметр используется для устранения чрезмерной подгонки (когда #data мало или #category велико).

11. Feature_fraction:LightGBM будет случайным образом выбирать подмножество функций на каждой итерации (дереве), если feature_fraction меньше, чем 1.0. Например, если вы установите значение 0.8, LightGBM выберет 80% функций перед обучением каждого дерева. Это можно использовать для ускорения обучения и борьбы с переобучением.

12. Lambda_L1: регуляризация L1. Используется для борьбы с переоснащением.

13. Lambda_L2: регуляризация L2. Используется для борьбы с переоснащением.

14. Скорость обучения: повышение скорости обучения. Более низкая скорость обучения обычно приводит к большей точности. Однако недостатком является то, что для сходимости потребуется большее количество оценок и, следовательно, увеличение времени обучения и прогнозирования.

‹Ещё будет добавлено›