Встроенные методы

Встроенные методы — это методы выбора признаков, которые выполняют выбор признаков как часть процесса построения модели. Их называют встроенными методами, потому что выбор функций встроен в конструкцию модели машинного обучения. Эти методы направлены на устранение ограничений методов фильтров и оболочек, включая взаимодействие функций, а также являются более эффективными с точки зрения вычислений.

Существует несколько алгоритмов машинного обучения, которые можно использовать для выбора встроенных функций. Вот некоторые часто используемые алгоритмы:

  1. Регуляризация L1 (лассо): Лассо — это метод линейной регрессии, который добавляет штрафной член L1 к целевой функции. Этот штраф поощряет разреженность в оценках коэффициентов, эффективно выполняя выбор признаков.
  2. Ридж-регрессия: Ридж-регрессия — это метод линейной регрессии, который добавляет штрафной член L2 к целевой функции. Хотя он не выполняет явный выбор функций, как Lasso, он все же может сжимать менее релевантные функции до нуля, эффективно уменьшая их влияние.
  3. Elastic Net: Elastic Net сочетает в себе регуляризацию L1 и L2. Он может обеспечить баланс между выбором признаков (L1) и группировкой признаков (L2), включая оба штрафных члена в целевую функцию.
  4. Деревья решений. Деревья решений, такие как «Случайный лес» и «Усиление градиента», имеют встроенные возможности выбора функций. Эти алгоритмы используют меры важности признаков для определения наиболее подходящих признаков для разделения узлов в дереве, эффективного ранжирования и выбора признаков.
  5. XGBoost: XGBoost — это оптимизированная реализация повышения градиента, которая использует деревья решений в качестве базовых обучающих программ. Подобно деревьям решений, XGBoost может предоставлять ранжирование важности функций, что позволяет выбирать встроенные функции.
  6. LightGBM: LightGBM — это еще один алгоритм повышения градиента, который использует деревья решений в качестве базовых обучающих программ. Он также обеспечивает ранжирование важности функций, которые можно использовать для выбора встроенных функций.
  7. Машины опорных векторов (SVM): SVM могут использовать различные функции ядра, такие как линейная, полиномиальная или радиальная базисная функция (RBF), для изучения границ сложных решений. Настраивая гиперпараметры, SVM могут эффективно выполнять выбор встроенных функций.

Это всего лишь несколько примеров алгоритмов машинного обучения, которые могут включать встроенные методы выбора признаков. Важно отметить, что эффективность выбора функций может варьироваться в зависимости от конкретного набора данных и проблемы.

линейная регрессия

В линейной регрессии выбор признаков может быть выполнен с использованием встроенных методов путем изучения оценок коэффициентов (весов), присвоенных каждому признаку в модели. Величина и знак этих коэффициентов могут указывать на важность и направление связи между признаками и целевой переменной.

уравнение линейной регрессии: LPA = b0 + b1 * CGPA + b2 * IQ, при условии отсутствия мультиколлинеарности, коэффициенты b1 и b2 представляют важность или вес признаков CGPA и IQ, соответственно, при прогнозировании LPA.

Если коэффициент b1 положителен, это указывает на то, что увеличение CGPA связано с увеличением LPA, и величина b1 определяет силу этой связи. Точно так же, если коэффициент b2 положительный, это предполагает, что увеличение IQ связано с увеличением LPA.

Величина коэффициентов может использоваться как индикатор важности признака. Большая величина подразумевает более сильное влияние соответствующего признака на целевую переменную. Например, если |b1| › |b2|, это предполагает, что CGPA оказывает относительно более сильное влияние на LPA по сравнению с IQ.

Однако важно отметить, что надежность оценок коэффициентов (b1, b2) для вывода и выбора признаков зависит от выполнения определенных допущений. Эти предположения включают линейность, независимость, гомоскедастичность и отсутствие мультиколлинеарности.

Если эти допущения нарушаются, оценки коэффициентов могут стать ненадежными, что повлияет на интерпретацию важности признаков и достоверность выбора признаков, основанного исключительно на величинах коэффициентов. Крайне важно оценить предположения и провести соответствующую диагностику, прежде чем полагаться исключительно на оценки коэффициентов для вывода и выбора признаков.

Кроме того, стоит упомянуть, что на практике для лучшего выбора признаков могут использоваться более продвинутые методы, такие как регуляризация (например, регуляризация L1) или древовидные алгоритмы, поскольку они могут обрабатывать мультиколлинеарность и фиксировать нелинейные отношения более эффективно, чем простая линейная регрессия.

для линейной регрессии lr.coef_

Предположение

  1. Линейность: связь между независимыми и зависимыми переменными является линейной. Это также означает, что изменение зависимой переменной на единицу изменения независимой переменной (переменных) является постоянным.
  2. Независимость: наблюдения независимы друг от друга. Это означает, что остатки (разницы между наблюдаемыми и прогнозируемыми значениями) независимы.
  3. Гомоскедастичность: дисперсия остатков постоянна на всех уровнях независимых переменных.
  4. Нормальность: остатки нормально распределены. Нет мультиколлинеарности: независимые переменные не сильно коррелируют друг с другом. Это предположение действительно важно, когда вы хотите интерпретировать коэффициенты регрессии.

Регуляризованные модели

Регуляризованные линейные модели — это линейные модели, которые включают штрафной член в функцию потерь во время обучения. Штрафной срок препятствует изучению слишком сложной модели, что может помочь предотвратить переоснащение.

embedded-methods.ipynb — Colaboratory (google.com)

Модели регуляризации, такие как Ridge, Lasso и Elastic Net, можно использовать в качестве встроенных методов для выбора признаков. Эти модели вводят штрафной член в целевую функцию во время обучения, чтобы контролировать сложность модели и поощрять разреженность оценок коэффициентов. Полученные коэффициенты затем можно использовать для оценки важности признаков и выполнения выбора признаков.

Ридж-регрессия: Ридж-регрессия добавляет член регуляризации L2 к целевой функции наименьших квадратов. Этот штрафной член сужает оценки коэффициентов до нуля, но не устанавливает их точно равными нулю. В результате регрессия Риджа может уменьшить влияние менее релевантных признаков, но не выполняет явный выбор признаков.

Лассо-регрессия: Лассо-регрессия, с другой стороны, вводит термин регуляризации L1. Штраф L1 имеет свойство устанавливать некоторые оценки коэффициентов точно равными нулю. Это поощряет разреженность модели и выполняет выбор функций, эффективно исключая менее важные функции. Лассо имеет тенденцию выбирать подмножество функций, уменьшая остальные до нуля.

Эластичная сеть: Эластичная сеть сочетает в себе штрафы L1 и L2, обеспечивая баланс между выбором функций и группировкой функций. Целевая функция Elastic Net включает условия регуляризации L1 и L2, что позволяет ей обрабатывать ситуации, когда есть коррелированные признаки. Это делает его полезным, когда в наборе данных присутствует мультиколлинеарность.

Лассо-регрессия (регуляризация L1) часто предпочтительнее для выбора признаков по нескольким причинам:

  1. Разреженность: способность Lasso устанавливать некоторые коэффициенты точно равными нулю делает его подходящим для выбора подмножества соответствующих функций. Это может привести к более понятной и простой модели.
  2. Важность функции: ненулевые коэффициенты в Lasso обеспечивают меру важности функции. Величина коэффициентов отражает влияние соответствующих признаков на целевую переменную, что облегчает оценку их релевантности.
  3. Автоматический выбор функций: Lasso автоматически выполняет выбор функций в рамках процесса обучения модели. Он не требует дополнительных шагов или эвристик для выбора признаков, что может быть выгодно.

Однако выбор между Ridge, Lasso или Elastic Net зависит от конкретного набора данных и проблемы. Если вы подозреваете мультиколлинеарность, Elastic Net может оказаться более подходящим выбором. Кроме того, ридж-регрессия все еще может быть полезна, когда вы хотите включить все функции, но уменьшить их влияние, чтобы избежать переобучения.

embedded-methods.ipynb — Colaboratory (google.com)

Модели на основе дерева, которые являются нелинейными моделями, также могут использоваться для выбора функций и расчета их важности. Эти модели имеют встроенные методы выбора функций, поскольку они по своей сути учитывают взаимодействие функций и их важность в процессе обучения.

Модели на основе дерева, такие как Random Forest и Gradient Boosting, используют деревья решений в качестве базовых обучающих программ. Эти модели ранжируют функции на основе их способности разделять и разделять целевую переменную в древовидной структуре. Важность признаков рассчитывается путем агрегирования мер важности по всем деревьям в ансамбле.

Меры важности признаков в древовидных моделях дают представление об относительном вкладе каждого признака в процесс прогнозирования. Наиболее распространенные методы расчета важности функции включают в себя:

  1. Важность Джини: этот метод измеряет общее снижение критерия примеси (обычно примеси Джини), достигнутое определенной функцией во всех деревьях. Признаки с более высоким значением Джини считаются более важными для предсказания.
  2. Среднее уменьшение примеси (MDI): Подобно важности Джини, MDI количественно определяет среднее уменьшение примеси, достигнутое путем разделения на конкретный признак по всем деревьям.
  3. Важность перестановки: важность перестановки оценивает влияние случайной перестановки значений функции на производительность модели. Функции, перестановка которых приводит к наибольшему снижению производительности, считаются более важными.

Модели на основе дерева приобрели популярность для выбора признаков, потому что они могут фиксировать сложные нелинейные отношения и взаимодействия между признаками. Они также способны обрабатывать различные типы данных и менее чувствительны к выбросам и масштабированию.

Важно отметить, что интерпретация и использование показателей важности признаков из древовидных моделей могут отличаться от коэффициентов линейной регрессии. Модели на основе дерева обеспечивают относительное ранжирование функций, а не явные коэффициенты, представляющие влияние функций. Таким образом, показатели важности признаков из древовидных моделей полезны для выбора признаков, но могут не отражать напрямую такую ​​же важность признаков, как в линейной регрессии.

Рекурсивное устранение признаков (RFE)

Рекурсивное исключение признаков (RFE) — это метод выбора признаков, который итеративно удаляет менее важные признаки из заданного набора данных. Он работает путем обучения модели полному набору функций, ранжирования функций в зависимости от их важности, а затем удаления наименее важных функций из набора данных. Этот процесс повторяется до тех пор, пока не останется желаемое количество признаков.

Чтобы проиллюстрировать RFE, давайте рассмотрим популярный набор данных Iris, который состоит из измерений различных атрибутов цветов Iris. Мы будем использовать scikit-learn и алгоритм логистической регрессии в качестве базовой модели.

Сначала мы импортируем необходимые библиотеки и загружаем набор данных Iris:

from sklearn.datasets import load_iris
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
# Load the Iris dataset
iris = load_iris()
X = iris.data  # Features
y = iris.target  # Target variable

Затем мы инициализируем модель логистической регрессии и создаем объект RFE, указав количество функций, которые мы хотим выбрать:

pythonCopy code
# Initialize the Logistic Regression model
model = LogisticRegression()
# Create an RFE object
rfe = RFE(estimator=model, n_features_to_select=2)

Затем мы подгоняем объект RFE к данным, чтобы выполнить выбор признаков:

pythonCopy code
# Fit RFE on the data
rfe.fit(X, y

После подгонки мы можем получить выбранные функции с помощью атрибута support_ и их ранжирование с помощью атрибута ranking_:

pythonCopy code
# Selected features
selected_features = rfe.support_
# Feature rankings
feature_rankings = rfe.ranking_

selected_features будет логической маской, указывающей, какие функции выбраны (True для выбранных, False для не выбранных), а feature_rankings предоставит ранг каждой функции.

Чтобы визуализировать результаты, мы можем распечатать выбранные функции и их ранжирование:

pythonCopy code
print("Selected Features:", selected_features)
print("Feature Rankings:", feature_rankings)

Вывод будет выглядеть примерно так

Selected Features: [ True False  True False]
Feature Rankings: [1 2 1 3]

В этом примере RFE выбрал две функции (значения True) и оценил их как наиболее важные (ранг 1), а остальные функции оценили как менее важные (ранг 2 и 3).

Итеративно удаляя менее важные функции, RFE помогает определить подмножество функций, которые вносят наибольший вклад в прогностическую силу модели.

подробно объясните результат

После применения метода рекурсивного исключения признаков (RFE) к набору данных Iris с моделью логистической регрессии результаты показывают выбранные признаки и их ранжирование.

Переменная selected_features представляет собой логическую маску, где True указывает, что определенная функция выбрана, а False указывает, что она не выбрана. В данном примере выбраны признаки [True, False, True, False], что означает, что первый и третий признаки считаются важными для предсказания, а второй и четвертый - нет.

С другой стороны, переменная feature_rankings представляет ранжирование, присвоенное каждой функции. Ранг 1 означает самую важную функцию, 2 означает вторую по важности и так далее. В данном примере ранжирование функций равно [1, 2, 1, 3]. Это означает, что первая и третья функции имеют наивысший рейтинг (ранг 1), что позволяет предположить, что они являются наиболее значимыми функциями для задачи прогнозирования. Второй признак имеет ранг 2, что указывает на то, что он считается менее важным, а четвертый признак имеет самый низкий ранг, равный 3, что указывает на то, что он считается наименее важным среди признаков.

В целом, результаты метода RFE для набора данных Iris с логистической регрессией показывают, что первая и третья функции (вероятно, соответствующие конкретным измерениям) являются наиболее важными для прогнозирования целевой переменной (вида цветка Iris), в то время как вторая и четвертая функции считаются менее важными. Эту информацию можно использовать для эффективного уменьшения размерности набора данных путем выбора наиболее информативных признаков для дальнейшего анализа или обучения модели.

Преимущества и недостатки

Преимущества:

  1. Производительность: они, как правило, более точны, чем методы фильтрации, поскольку учитывают взаимодействие между функциями.
  2. Эффективность: они более эффективны в вычислительном отношении, чем методы-оболочки, поскольку они соответствуют модели только один раз.
  3. Менее склонны к переобучению: они вводят некоторую форму регуляризации, которая помогает избежать переобучения. Например, регрессия Лассо и Риджа добавляет штраф к функции потерь, уменьшая некоторые коэффициенты до нуля.

Недостатки:

  1. Конкретная модель: поскольку они привязаны к конкретной модели машинного обучения, выбранные функции не обязательно оптимальны для других моделей.
  2. Сложность: они могут быть более сложными и трудными для интерпретации, чем методы фильтрации. Например, понять, почему Лассо уменьшает одни коэффициенты до нуля, а другие нет, может быть нетривиально.
  3. Требуется настройка: у них часто есть гиперпараметры, которые необходимо настроить, например, сила регуляризации в регрессии Лассо и Риджа.
  4. Стабильность: в зависимости от модели и данных небольшие изменения в данных могут привести к различным наборам выбранных функций. Это особенно верно для моделей, которые могут соответствовать сложным границам решений, таких как деревья решений.

Шпаргалка

Методы фильтрации:

. Порог отклонения: удаляет все функции, отклонение которых не соответствует определенному порогу. Используйте это, когда у вас много функций, и вы хотите удалить те, которые являются постоянными или почти постоянными.

. Коэффициент корреляции: находит корреляцию между каждой парой функций. Функции с высокой степенью корреляции могут быть удалены, поскольку они содержат аналогичную информацию. Используйте это, когда вы подозреваете, что некоторые функции сильно коррелированы.

. Тест хи-квадрат: этот статистический тест используется для определения наличия значительной связи между двумя переменными. Он обычно используется для категориальных переменных. Используйте это, когда у вас есть категориальные функции, и вы хотите найти их зависимость от целевой переменной.

. Взаимная информация: измеряет зависимость между двумя переменными. Это более общая форма коэффициента корреляции, которая может отражать нелинейные зависимости. Используйте это, когда вы хотите измерить как линейные, так и нелинейные зависимости между функциями и целевой переменной.

. ANOVA (дисперсионный анализ): ANOVA — это статистический тест, который расшифровывается как «дисперсионный анализ». ANOVA проверяет влияние одного или нескольких факторов, сравнивая средние значения разных выборок. Используйте это, когда у вас есть одна или несколько категориальных независимых переменных и непрерывная зависимая переменная.

2. Методы обертки:

  1. Рекурсивное устранение признаков (RFE): рекурсивно удаляет признаки, строит модель с использованием оставшихся атрибутов и вычисляет точность модели. Он использует точность модели, чтобы определить, какие атрибуты вносят наибольший вклад. Используйте это, если вы хотите использовать модель для определения лучших функций.
  2. Последовательный выбор признаков (SFS): Добавляет или удаляет по одному признаку за раз в зависимости от производительности классификатора, пока не будет достигнуто подмножество признаков желаемого размера k. Используйте это, когда вычислительные затраты не являются проблемой, и вы хотите найти оптимальное подмножество функций.
  3. Исчерпывающий выбор функций: это грубая оценка каждого подмножества функций. Этот метод, как следует из названия, пробует все возможные комбинации переменных и возвращает наилучшее подмножество. Используйте это, когда количество функций невелико, так как это может потребовать значительных вычислительных ресурсов.

3. Встроенные методы:

  1. Лассо-регрессия: Лассо (оператор наименьшего абсолютного сжатия и выбора) — это метод регрессионного анализа, который выполняет как выбор переменных, так и регуляризацию. Используйте это, когда хотите создать простую и интерпретируемую модель.
  2. Ридж-регрессия: Ридж-регрессия — это метод, используемый для анализа данных множественной регрессии, которые страдают от мультиколлинеарности. В отличие от Lasso, это не приводит к выбору признаков, а скорее минимизирует сложность модели.
  3. Эластичная сеть: этот метод представляет собой комбинацию лассо и гребня. Он включает в себя штрафы от обоих методов и особенно полезен при наличии нескольких коррелирующих признаков.
  4. Важность случайного леса: случайные леса обеспечивают простой метод выбора признаков, а именно среднее уменьшение примеси (MDI). Используйте это, если вы хотите использовать возможности случайных лесов для выбора функций.

Взаимная информация

Взаимная информация — это статистическая мера, которая количественно определяет зависимость или взаимосвязь между двумя переменными. В контексте выбора признаков это помогает определить прирост информации между признаком и целевой переменной. Давайте объясним это шаг за шагом, используя набор данных «Титаник» и столбцы «Пол» и «Выжившие»:

  1. Формула взаимной информации: Взаимная информация (MI) между двумя переменными X и Y может быть рассчитана по следующей формуле:
  2. MI(X, Y) = ∑∑ P(x, y) * log(P(x, y) / (P(x) * P(y)))
  • P(x, y): Совместная функция массы вероятности X и Y (вероятность того, что X=x и Y=y).
  • P(x), P(y): Массовые функции предельной вероятности X и Y (вероятности X=x и Y=y соответственно).
  1. Шаг 1. Рассчитайте предельные вероятности. Вычислите предельные вероятности P (пол) и P (выжил). Например, предположим, что в наборе данных «Титаника» 300 женщин (пол) и 200 выживших (выживших). Вероятности будут: P(пол = женщина) = 300 / (300 + 500) = 0,375 P(пол = мужчина) = 500 / (300 + 500) = 0,625 P(выжил = да) = 200 / (200 + 600) ) = 0,25 P(Выжил = Нет) = 600 / (200 + 600) = 0,75
  2. Шаг 2. Рассчитайте совместные вероятности. Рассчитайте совместные вероятности P (пол, выживший). Предположим, что выжило 150 женщин: P(пол = женщина, выжила = да) = 150 / (150 + 350 + 150 + 150) = 0,2.
  3. Шаг 3: Рассчитайте взаимную информацию: Используя формулу для взаимной информации, подставьте вычисленные вероятности в уравнение. В этом случае мы рассчитываем МИ (пол, выживший). МИ (пол, выживший) = (0,2 * log2 (0,2 / (0,375 * 0,25))) + …
  4. Подсчитайте оставшиеся термины и просуммируйте их, чтобы получить взаимную информационную ценность.

Полученное значение взаимной информации количественно определяет количество информации, полученной о переменной «Выживший», зная переменную «Пол». Более высокая ценность взаимной информации указывает на более сильную взаимосвязь между двумя переменными, предполагая, что «пол» является важной характеристикой для прогнозирования «выжившего».

Обратите внимание, что взаимная информация может быть рассчитана как для категориальных, так и для непрерывных переменных. Приведенный пример предполагает категориальные переменные, но формулу можно адаптировать для непрерывных переменных, используя функции плотности вероятности вместо функций массы вероятности.

  1. Шаг 4: Расчет взаимной информации. Используя формулу взаимной информации, подставьте рассчитанные вероятности в уравнение. В этом случае мы рассчитываем МИ (пол, выживший): МИ (пол, выживший) = (0,2 * log2 (0,2 / (0,375 * 0,25))) + (0,15 * log2 (0,15 / (0,375 * 0,75))) + …
  2. Подсчитайте оставшиеся термины и просуммируйте их, чтобы получить взаимную информационную ценность.
  3. Например, предположим, что после расчета всех условий мы получаем следующие значения: MI(Sex, Survived) = 0,256.
  4. Это значение 0,256 представляет собой взаимную информацию между функцией «Пол» и целевой переменной «Выживший» в наборе данных «Титаника». Он указывает количество информации, полученной о результате выживания, зная пол человека.

Интуиция: взаимная информация измеряет, насколько знание одной переменной снижает неопределенность в отношении другой переменной. В случае выбора признаков он сообщает нам, сколько информации о целевой переменной (выживший) предоставляет конкретный признак (пол). Более высокое значение взаимной информации предполагает, что функция содержит более важную информацию для прогнозирования целевой переменной.

В примере с «Титаником» значение взаимной информации, равное 0,256, указывает на то, что знание пола пассажира дает ценную информацию об их выживании. Это говорит о том, что функция «Пол», вероятно, будет важным предиктором выживания в наборе данных Титаника.

Важно отметить, что взаимная информация является симметричной мерой, то есть MI(X, Y) = MI(Y, X). При выборе признаков мы обычно вычисляем взаимную информацию между каждым признаком и целевой переменной и выбираем признаки с наивысшими показателями взаимной информации как более релевантные для прогнозирования.

  1. Шаг 5: Интерпретация и выбор признаков. После расчета значения взаимной информации для каждого признака по отношению к целевой переменной вы можете интерпретировать результаты и принимать решения относительно выбора признаков.
  2. В случае с набором данных Titanic предположим, что после вычисления значений взаимной информации для всех признаков мы получаем следующие результаты:
  • Взаимная информация (пол, выживание) = 0,256
  • Взаимная информация (возраст, выжившие) = 0,112
  • Взаимная информация (проезд, выживший) = 0,075
  • Взаимная информация (класс, выживший) = 0,203
  1. Эти значения представляют собой количество информации, полученной о переменной «выживший», зная каждую соответствующую функцию.
  2. Основываясь на этих результатах, вы можете сделать вывод, что «Пол» имеет самую высокую ценность взаимной информации (0,256), что указывает на то, что он дает больше всего информации о результате выживания. Это говорит о том, что «пол» является очень важной характеристикой для прогнозирования выживания в наборе данных Титаника.
  3. Следовательно, в контексте выбора признаков вы должны выбрать «Пол» в качестве важного признака для включения в вашу прогностическую модель, учитывая его более высокий показатель взаимной информации по сравнению с другими признаками.

Используя взаимную информацию, вы можете количественно оценить силу связи между функциями и целевой переменной. Он помогает идентифицировать функции, которые содержат важную информацию для прогнозирования, обеспечивая эффективный выбор функций и повышая точность и производительность моделей машинного обучения.

взаимная информация имеет несколько свойств, которые делают ее полезной для выбора признаков: 1. она неотрицательна, 2. он симметричен, он может уловить любую статистическую зависимость, а также объяснить, как работать с числовыми данными, чем они отличаются от численных.

Взаимная информация (MI) обладает несколькими свойствами, которые делают ее полезной для выбора признаков:

  1. Неотрицательный: МИ всегда неотрицательный. Он варьируется от 0 (указывает на отсутствие зависимости) до более высоких положительных значений (указывает на более сильную зависимость) между переменными. Это свойство позволяет сравнивать различные функции в зависимости от их важности.
  2. Симметричный: MI симметричен, что означает MI(X, Y) = MI(Y, X). Он измеряет зависимость между переменными независимо от порядка переменных. Это свойство гарантирует, что оценка взаимной информации останется неизменной независимо от того, как расположены переменные.
  3. Фиксирует любую статистическую зависимость: MI может фиксировать любую статистическую зависимость между переменными. Он не ограничивается линейными отношениями и может обнаруживать сложные и нелинейные связи. Это делает его универсальным для различных типов данных и может обнаруживать скрытые взаимосвязи, которые могут быть упущены другими методами.

При работе с числовыми данными взаимная информация должна быть адаптирована для работы с непрерывными переменными. Это можно сделать путем дискретизации непрерывных переменных в ячейки или с помощью таких методов, как оценка энтропии или оценка плотности ядра. Дискретизация включает в себя разделение диапазона значений на интервалы, создание категориальных переменных, которые можно использовать при расчете взаимной информации.

С другой стороны, хи-квадрат (χ²) — это статистический тест, который измеряет связь между категориальными переменными. Он сравнивает наблюдаемые частоты с ожидаемыми частотами, чтобы определить, существует ли значительная связь между переменными. Хи-квадрат не подходит для числовых данных напрямую, поскольку он опирается на таблицы непредвиденных обстоятельств, которые требуют дискретных категорий. Таким образом, хи-квадрат обычно используется для выбора категорийных признаков, в то время как взаимная информация более применима как для категорийного, так и для числового выбора признаков.

Таким образом, взаимная информация предлагает несколько полезных свойств для выбора признаков, включая неотрицательность, симметрию и возможность фиксировать любую статистическую зависимость. При работе с числовыми данными требуются соответствующие адаптации, такие как дискретизация, в то время как хи-квадрат специально разработан для категориальных данных.

Взаимная информация (МИ) как метод выбора признаков имеет некоторые недостатки:

  1. Сложность оценки: Точная оценка взаимной информации может быть сложной задачей, особенно при работе с ограниченными или зашумленными данными. Точная оценка требует достаточно большого размера выборки, чтобы зафиксировать базовые статистические зависимости между переменными.
  2. Допущение о большом размере выборки: расчеты взаимной информации предполагают большой размер выборки, чтобы обеспечить надежные оценки. При небольших размерах выборки оценка ИМ может быть ненадежной и склонной к переобучению или недооценке.
  3. Интенсивность вычислений: вычисления взаимной информации могут требовать значительных вычислительных ресурсов, особенно при работе с многомерными наборами данных или сложными отношениями между переменными. Для расчета MI для большого количества признаков могут потребоваться значительные вычислительные ресурсы и время.
  4. Трудности с непрерывными переменными: взаимная информация плохо подходит для непрерывных переменных напрямую. Для обработки непрерывных переменных перед применением взаимной информации требуется дискретизация или другие методы. Дискретизация может привести к потере информации и повлиять на точность расчетов МИ.
  5. Отсутствие прямого указания на характер взаимосвязи: взаимная информация не дает прямого указания на характер или направленность взаимосвязи между переменными. Он измеряет общую зависимость, но не указывает, является ли связь линейной, нелинейной или монотонной.
  6. Не учитывает избыточность: взаимная информация учитывает только зависимость между функцией и целевой переменной, но не учитывает избыточность среди функций. Он может выбрать несколько сильно коррелированных функций, что приведет к избыточной информации и возможному переоснащению модели.

Эти недостатки подчеркивают ограничения и проблемы, связанные с использованием взаимной информации в качестве метода выбора признаков. Важно тщательно учитывать эти недостатки и выбирать подходящие методы выбора признаков, исходя из конкретных характеристик набора данных и целей анализа.