Сначала давайте разберемся с функцией несоответствия, потери, средней потери и стоимости на примере.

Сначала мы должны выполнить нормализацию данных и преобразовать все данные в диапазон от 0 до 1.

Здесь ŷ(i) представляет прогнозируемое значение.

Предположим, что модель правильно предсказала первые 2 точки данных среди 3 данных. точки. Это бинарная классификация, и 1 означает Да и 0. обозначает 'Нет'.

'C' означает правильно классифицированный, а 'NC' означает 'неправильно классифицированный' . Если обучающий пример помечен как 1, а прогнозируемое значение равно 0,5, то пример Правильно классифицирован; и в противном случае неверная классификация. С другой стороны, если обучающий пример помечен как 0, а прогнозируемое значение равно 0,5 тогда пример Правильно классифицирован; и в противном случае неверная классификация.

Потеря:

Разница между прогнозом и истинной меткой называется убытком. Потери – это показатель того, насколько прогноз отличается от истинного. Он используется для оценки производительности алгоритма и может использоваться для дальнейшего повышения точности. алгоритма. Потери обычно рассчитываются путем вычитания прогноза из истинной метки.

Потеря или несоответствие = истинная метка — прогноз

Здесь для тренировочного примера 1 потеря составляет: 1–0,6 = 0,4 → классифицировано правильно;

пример 2, потеря составляет: 1–0,5 = 0,5 → Правильно классифицировано;

пример 3, потеря составляет: 0–0,6 = –0,6 → неправильно классифицировано;

Функция средних потерь:

Функция средних потерь в нейронной сети рассчитывается путем деления общих потерь по всем обучающим примерам на общее количество примеров. Это значение затем используется для измерения производительности сети и соответствующей корректировкивеса ​​сети. Чтобы рассчитать среднюю функцию потерь, нам нужно просуммировать потери по всем обучающим примерам и разделить их на количество примеров.

Теперь средний убыток: (0,4 + 0,5 –0,6)/3 = 0,1

Функция стоимости:

Функция средних потерь также называется функцией затрат. Функция стоимости используется для измерения производительности алгоритма путем расчета средних потерь. Рассчитывается путем деления суммы всех убытков на количество убытков. Функция стоимости используется для оптимизации алгоритма и повышения его точности.

Функция потерь логистической регрессии

Логистическая регрессия – это контролируемый алгоритм машинного обучения, используемый для прогнозирования дискретногорезультата (т. е. да/нет). , 0/1 и т. д.). Чтобы обучить параметры (w и b) модели логистической регрессии, мы должны определить функция стоимости. Функция потеря (или ошибка) измеряет расхождение между прогнозом (ŷ( i)) и желаемый результат (y(i)). Наиболее распространенной функцией потерь, используемой в линейной регрессии, является функция квадрата ошибки. Эта функция имеет дополнительный множитель (1/2) в правой части уравнения.

Квадратичная функция ошибки

Наиболее распространенной функцией потерь, используемой в линейной регрессии, является функция квадрата ошибки.

Теперь давайте разберемся, как на самом деле функция квадрата ошибки вычисляет убыток.

Здесь ŷ представляет прогнозируемые значения и y представляет фактические значения. После построения линии регрессии на графике мы измеряем расстояние, взяв разницу между фактической величиной (y) и прогнозируемое значение (ŷ). Точки на красной линии регрессии — это прогнозируемые значения (ŷ), а 'x' (черный крест) отмеченные точкиявляютсяфактическими значениями (y). После разности мы возводим в квадрат их, а затем суммируем для расчета общего квадрата потерь. Синие и зеленыецветные квадраты представляют собой квадрат ошибки точек данных. Множитель 1/2 в уравнении квадрата ошибки представляет собой математическое удобство, упрощающее вычисление производной от функция потерь.

При получении производной от уравнения квадрата ошибки множитель 1/2 компенсируется, что приводит к более простому выражение. Это упрощение позволяет выполнять более быстрые и точные вычисления при обратном распространении, которое используется для настройкивесови >смещениянейронной сети.

В. Почему функция Squared Error не подходит для логистической регрессии?

Отвечать:

Функция квадрата ошибки не подходит для логистической регрессии, поскольку нелинейна сигмовидная функция, делает квадратичную функцию ошибки невыпуклой и может иметь локальные оптимумы, которые могут предотвратить градиентный спуск от поиска наилучшего решения. Он плохо работает с нелинейными функциями и склонен наказывать правильно классифицированные примеры, близкие к границе принятия решения. Градиентный спуск также требует много времени для получения прогнозов, близких к {0, 1}. Поэтому логарифмическая функция лучше подходит для логистической регрессии.

Функция Log Loss является выпуклой для логистической регрессии

Log Loss (или перекрестная потеря энтропии) – популярная целевая функция, используемая в логистической регрессии. Это мера разницы между прогнозируемой вероятностью того, что событие действительно произойдет, и истинным событием. Функция Log Loss является выпуклой, поскольку она имеет один глобальный минимум. Это означает, что ее легко оптимизировать, так как любые локальные минимумы, которые могут существовать, будут такими же, как глобальные минимумы. Это упрощает поиск оптимальногонабора параметровдля модели. Кроме того, выпуклость функции Log Loss гарантирует, что модель стабильна и не соответствует обучающим данным.

  1. Перекрестная потеря энтропии является подходящей функцией потерь для логистической регрессии, поскольку она измеряет расстояние между двумяраспределениями вероятностей. Он специально используется для измерения расстояниямежду оценочной вероятностью и истинной вероятностью.
  2. Перекрестная потеря энтропии наказывает за большие ошибки больше, чем за мелкие, что помогает предотвратить переобучение.
  3. Потеря перекрестной энтропии более надежна, чем другие функции потерь, такие как потеря шарнира, потому что она не чувствительна к выбросам.
  4. Потеря перекрестной энтропии способна фиксировать нелинейные границы решений, что делает его эффективнаяфункция потерь для моделей логистической регрессии.
  5. Кросс-энтропийные потери можно использовать для измерения производительности модели классификации. Он часто используется в качестве оценочной метрики для задач классификации с несколькими классами.

В. Как функция потери журнала или перекрестная потеря энтропии решает проблему квадратичной функции ошибки для логистической регрессии?

Отвечать:

Потери перекрестной энтропии лучше, чем потери квадратичной ошибки, поскольку они лучше подходят для классификациипроблемы. Перекрестная потеря энтропии — это подходящая функция потерь для логистической регрессии, поскольку она измеряет расстояние между двумя вероятностными распределениями. Потери в квадрате ошибки, с другой стороны, больше подходят для регрессионных задач. Потери в квадрате ошибки измеряют разницу между прогнозируемыми и факическими значениями. Кроме того, перекрестная потеря энтропии наказывает за большие ошибки больше, чем за мелкие, что помогает предотвратить переобучение. Однако квадрат ошибок не имеет такой возможности. Кроме того, потери перекрестной энтропии более надежны, чем потери квадратичной ошибки, поскольку нечувствительны к выбросам.

Краткое содержание:

1. Логарифмическая потеря (также известная как кросс-энтропийная потеря) — это мера, используемая в логистической регрессии для количественной оценки ошибки прогнозирования модели.

2. Log Loss используется для измерения производительности модели классификации.

3. Log Loss измеряет точность классификатора, наказывая ложные классификации. Чем больше значение Log Loss, тем более неточным является классификатор.

4. Log Loss — это выпуклая функция для логистической регрессии, потому что это непрерывная, дифференцируемая и строго выпуклая функция. Это означает, что у него есть уникальная точка глобального минимума, что упрощает оптимизацию.

5. Выпуклая функция также обладает тем свойством, что любой локальный минимум является глобальным минимумом. Это свойство позволяет нам оптимизировать функцию Log Loss, находя набор весов, который минимизирует Log Loss.

6. Выпуклость функции Log Loss также гарантирует отсутствие переобучения модели, поскольку веса будут находиться в области глобального минимума, а не в каком-либо локальном минимуме.

Увидимся в следующей статье. Это все на данный момент.

Если вы нашли эту статью интересной, полезной и если вы узнали что-то из этой статьи, подпишитесь, прокомментируйте и оставьте отзыв.

Если вы хотите связаться со мной, вот мой LinkedIn.