Когда мы говорим о функции потерь логистической регрессии, все мы знаем, что это кросс-энтропия. Но какова интуиция при использовании потери кросс-энтропии? Сегодня мы поговорим об энтропии, кросс-энтропии и функциях потерь с точки зрения теории информации.

«Теория информации занимается представлением данных в компактном виде (задача, известная как сжатие данных или исходное кодирование), а также их передачей и хранением, устойчивым к ошибкам».

Мы свяжем два понятия (энтропия и кросс-энтропия) с теорией информации, не углубляясь в теории.

Когда данные передаются из канала с шумом, нам нужна хорошая вероятностная модель передаваемых данных, которая может предсказать вероятность данных.

Итак, допустим, что данные в источнике имеют распределение вероятностей p, а в месте назначения мы использовали распределение вероятностей q для декодирования тех же данных (обратите внимание, что оно действительно принадлежит к раздаче p).

Теперь мы хотим вычислить разницу между декодированными данными и закодированными данными (переданными данными), то есть несходство между двумя распределениями. Это делается с помощью кросс-энтропии или KL-дивергенции.

Перекрестная энтропия (H (p, q)) - это среднее количество битов, необходимых для кодирования данных, поступающих из источника с распределением p,, который мы декодируем с помощью модели. q.

Если бы мы использовали точную модель в месте назначения, то количество битов, необходимых для кодирования данных, было бы равно таковому в источнике, то есть H (p, p), что называется энтропией.

Давайте посмотрим на определение энтропии, кросс-энтропии и KL-дивергенции.

Энтропия: энтропия случайной величины X с распределением p, обозначенная H (X). или иногда H (p), является мерой неопределенности значений / состояний, которые он может принимать. В частности, для дискретной переменной с состояниями K она определяется как

Перекрестная энтропия: это мера разницы между двумя распределениями вероятностей, определяемая как

Дивергенция KL - это разница между энтропией и кросс-энтропией. Другими словами, дивергенция KL - это среднее количество дополнительных битов, необходимых для кодирования данных, из-за того, что мы использовали распределение q для кодирования данных, которые изначально принадлежат распределению p.

Чтобы узнать больше об энтропии, кросс-энтропии, вы можете обратиться к статье, указанной в ссылке.

Теперь, если мы подумаем о том, что мы делаем в логистической регрессии, мы заметим, что и там мы пытаемся аппроксимировать наши данные с помощью модели Logit и, таким образом, при вычислении функции потерь мы фактически пытаемся оценить разницу между фактической и прогнозируемой моделью. Следовательно, используемая здесь функция потерь аналогична кросс-энтропии.

Надеюсь, что идея использования перекрестной потери энтропии теперь ясна.

Ссылка:

Мерфи, Кевин П. Машинное обучение: вероятностная перспектива. MIT press, 2012.

Https://towardsdatascience.com/the-intuition-behind-shannons-entropy-e74820fe9800