Регулярная логистическая регрессия

Уменьшите количество переменных для диагностики рака груди

При работе с множеством различных переменных для прогнозирования результата не только требуется гораздо больше времени для сбора всей информации, в зависимости от типа эксперимента, вы также можете собрать информацию, которая не обязательно имеет отношение к другим переменным или коррелирует с другими переменными. В этом анализе я буду использовать метод, который уменьшает количество переменных в наборе данных, а также улучшает производительность модели и, следовательно, упрощает модель.

Сначала я кратко объясню концепцию этой техники, а затем приведу пример для прогнозирования диагноза рака груди.

Преодоление переоснащения с помощью регуляризации

Когда истинная связь между ответом и предикторами приблизительно линейна, оценки МНК модели будут иметь низкую систематическую ошибку: разницу между ожидаемым (или средним) прогнозом вашей модели и правильным значением, которое вы пытаетесь предсказать низкий уровень, и ваша модель измеряет то, что она должна измерять. Если количество наблюдений намного больше, чем количество переменных, тогда оценки OLS, как правило, имеют низкую дисперсию и, следовательно, будут хорошо работать на тестовых наблюдениях: прогнозы для данного наблюдения будут меньше различаться между различные реализации модели, потому что есть несколько переменных, которые влияют на реакцию.

По мере того, как мы добавляем больше независимых переменных в нашу модель, оценки OLS для разных выборок, как правило, намного больше по величине, чем истинные значения, что совпадает с высокой дисперсией и даже меньшим смещением. Модель становится слишком гибкой, и больше не существует уникального решения OLS: модель перекрывает данные. Как следствие, вам необходимо найти оптимальную точку в вашей модели, в которой уменьшение смещения равно увеличению дисперсии. Уравновешивание этого смещения и дисперсии называется компромиссом смещения и дисперсии.

Есть два метода преодоления переобучения:

  • Уменьшить сложность модели
  • Регуляризация

Регуляризация накладывает ограничение на размер коэффициентов. В сложной модели разница между размерами коэффициентов, как правило, больше. Большой коэффициент означает, что мы уделяем этой функции много внимания. В результате алгоритм начинает моделировать сложные отношения для оценки отклика. Эта проблема может усугубиться, если объекты с высокими коэффициентами также коррелируют. Следовательно, ограничение на величину коэффициентов также снизит сложность модели. Более того, уменьшая оценочные коэффициенты, мы часто можем уменьшить дисперсию за счет незначительного увеличения систематической ошибки, повышая точность прогноза для невидимых наблюдений.

Существует два основных типа регуляризации: Ridge и LASSO. Оба добавляют штрафной член к функции потерь за наличие «больших» коэффициентов.

  • Для регрессии Риджа: большой по отношению к квадрату нормы L2 (евклидово расстояние), где q = 2
  • Для регрессии LASSO: большая по отношению к норме L1 (манхэттенское расстояние), где q = 1

Оба имеют параметр настройки лямбда, который определяет, насколько важен штраф по отношению к квадрату ошибки. Чем больше штраф, тем выше значения лямбды, и, следовательно, величина коэффициентов уменьшается.

На оценки гребенчатой ​​регрессии мало влияют небольшие изменения в данных и когда переменные-предикторы сильно мультиколлинеарны. Модель будет производить разные наборы оценок коэффициентов для каждого значения ламбы. По мере увеличения значения лямбда сложность модели уменьшается. Хотя более высокие значения лямбда уменьшают переобучение, значительно высокие значения также могут вызывать недооборудование. Поэтому, чтобы сбалансировать компромисс смещения и дисперсии, очень важно выбрать лямбда с умом. Метод, используемый для выбора оптимальной лямбды, - это перекрестная проверка. Идея перекрестной проверки заключается в том, что значение лямбда повторяется по диапазону значений, а значение, которое минимизирует функцию потерь, выбирается в качестве наилучшего лямбда. Хотя нерелевантные коэффициенты для лучшей лямбды очень малы, они никогда не становятся равными нулю.

В отличие от регрессии Риджа, регрессия LASSO, которая означает оператор наименьшего абсолютного сжатия и выбора, функционирует как выбор признаков, заставляя коэффициенты нерелевантных признаков обнуляться, когда штраф достаточно большой. Недостатком регрессии LASSO является то, что когда у нас есть коррелированные переменные, она сохраняет только одну переменную и устанавливает другие коррелированные переменные равными нулю. Это может привести к потере информации и снижению точности модели.

Гибридная модель, представляющая собой комбинацию Ridge и LASSO, может решить эту проблему. Регрессия эластичной сети линейно комбинирует регуляризацию L1 и L2 методов Ridge и LASSO. В качестве дополнения к LASSO Elastic Net регрессия рассматривает коррелированные объекты как группу. Если какая-либо из переменных группы коррелированных функций является сильным предиктором, то эластичная сеть включает в модель всю группу.

Приложение для эластичной сетевой регрессии

В этом анализе я объясню, как использовать регуляризованную логистическую регрессию с помощью Scikit Learn, чтобы предсказать, является ли рак груди доброкачественным или злокачественным.

Набор данных содержит 30 характеристик, вычисленных на основе оцифрованного изображения опухоли груди. Из них 357 случаев рака были диагностированы как доброкачественные, а 212 - как злокачественные.

Давайте выясним, наблюдаем ли мы мультиколлинеарность в наборе данных, чтобы судить, имеет ли смысл применять регрессию эластичной сети.

Мы действительно видим, что около половины переменных от высокой до средней коррелируют с другой переменной. В случае с этим набором данных не требуется много времени, чтобы собрать или преобразовать объекты. Вместо этого представьте, что для сбора информации о каждой функции потребуется значительно больше времени, и выбор функции очень желателен. В этом случае мы определенно захотим изучить влияние эластичной сети на производительность модели.

Сначала я исследую производительность модели для каждой комбинации лямбда-выражения и эластичной сети. Для этого подхода см. Следующие шаги. (Обратите внимание, что с регуляризованной моделью линейной регрессии вы можете использовать функцию ElasticNetCV из Sklearn для этого метода. Функция SGDClassifier для регуляризованной модели логистической регрессии не возвращает те же атрибуты и, следовательно, требует другого метода для перекрестной проверки.)

Используйте метод Bootstrap, чтобы запустить модель Elastic Net десять раз и каждый раз сохранить коэффициенты из модели. В конце возьмите среднее из десяти коэффициентов для каждой переменной.

Это создает список наиболее важных функций.

Сравните модель регулярной логистической регрессии с моделью регуляризованной логистической регрессии Elastic Net.

Как показывают эти результаты, выполнение регуляризованной модели логистической регрессии на самом деле не улучшает точность (показатель ROC AUC) модели. Причиной этого может быть то, что логистическая регрессия уже показывает очень высокую точность.

Замечания

В этом анализе мы видим, что невыполнение выбора переменных посредством регуляризации не является проблемой точности прогноза. Тем не менее, возьмите опрос, который содержит сотни вопросов, каждый из которых задается респонденту на месте; модель, в которой используется только набор вопросов, не только упростит интерпретацию модели, но и сэкономит много времени на ее выполнение. эксперимент. В этом случае регуляризованная модель все равно принесет огромную пользу.