Сигмовидный выход - можно ли его интерпретировать как вероятность?

Сигмоидальная функция выводит число от 0 до 1. Является ли это вероятностью или это просто «да» или «нет» в зависимости от того, выше или ниже 0,5?

Минимальный пример:

Бинарная классификация кошек и собак. 0 - кошка, 1 - собака.

Могу ли я выполнить следующую интерпретацию выходных значений сигмоида:

  • 0,9 - это наверняка собака
  • 0,52 - это скорее собака, чем кошка, но все же не уверен
  • 0,5 - совершенно не определились, может быть кошка или собака
  • 0,48 - это скорее кошка, чем собака, но все еще не уверен
  • 0,1 - это наверняка кошка

Или это было бы правильным способом интерпретации результатов:

  • 0,9 - это собака
  • 0,52 - это собака
  • 0,5 - совершенно не определились, может быть кошка или собака
  • 0,48 - это кошка
  • 0.1 - это кошка

Обратите внимание, как в первом случае мы используем числовое значение для выражения вероятностей, а во втором случае мы полностью игнорируем вероятностную интерпретацию и свертываем ответы в двоичные. Что правильно? Вы можете объяснить почему?


Фоновый контекст, можете пропустить это:

Я нашел ряд источников, которые предполагают, что да, сигмовидный сигнал можно интерпретировать как вероятность:

  • Источник да 1 - (...) сигмоид (z) даст значение (вероятность) от 0 до 1.
  • Источник да 2 - "Выходные данные" должны поступать от функции, которая удовлетворяет свойствам функции распределения. для того, чтобы интерпретировать это как вероятности. (...) "сигмовидная функция" удовлетворяет этим свойствам.
  • Источник да 3 - tf.sigmoid(logits) дает вам вероятности.

И ряд источников, которые предполагают обратное, этот сигмовидный сигнал нельзя интерпретировать как вероятности:

  • Источник № 1 - (...) исходные значения не обязательно интерпретировать как исходные вероятности!
  • Источник № 2 - Сигмоидальная диаграмма (...) не является функцией распределения вероятностей
  • Источник нет (а также да) 3 - краткий ответ - нет, однако, в зависимости от потерь, которые вы используете , возможно, это ближе к истине, чем вы думаете.

(бонусные вопросы, ответ, чтобы выиграть машину!) Почему так много противоречивых ответов? Чем отличаются эти ответы? Я считаю маловероятным, что многие люди полностью ошибаются в этом - я думаю, они просто говорят о разных случаях или о каких-то разных фундаментальных предположениях. Какая разница, что мне не хватает?


Я знаю, что могу просто использовать softmax. Я также знаю, что сигмоид может использоваться для неисключительной мультиклассовой классификации (Исходный мульти 1, Source multi 2, Source multi 3) - хотя даже тогда неясно, могут ли такие множественные сигмоиды вывести вероятности различных классов или просто «да или нет», но для нескольких классов. В моем случае, однако, меня интересует эксклюзивная двухклассовая (бинарная) классификация и то, можно ли использовать сигмоид для определения ее вероятностей или следует использовать двухклассовый softmax.


person Voy    schedule 26.11.2019    source источник


Ответы (2)


Сигмоидальная функция не является функцией плотности вероятности (PDF), поскольку она интегрируется до бесконечности. Однако это соответствует кумулятивной функции вероятности логистического распределения.

Что касается вашей интерпретации результатов, даже если сигмоид не является PDF, учитывая, что его значения лежат в интервале [0,1], вы все равно можете интерпретировать их как индекс достоверности. Имея это в виду, я бы сказал, что ваша первая интерпретация является наиболее подходящей, хотя вы можете реализовать любой классификатор, который лучше подходит для ваших целей.

person edu_    schedule 26.11.2019
comment
Не могли бы вы уточнить, почему разрешено «по-прежнему интерпретировать их как индекс уверенности», особенно, что сигмовидная форма не является PDF-файлом? Я пытаюсь понять здесь не только то, что делать, но и зачем мне это делать. Это потому, что 'это соответствует кумулятивной функции вероятности логистического распределения.'? - person Voy; 27.11.2019

Я думаю, что противоречие между предоставленными вами ссылками происходит от семантического определения вероятности по сравнению с интуитивным. Я думаю, что интуитивная интерпретация «результат, близкий к 1, с большей вероятностью будет правильным», является правильной интуицией, но это число не является прямой корреляцией с вероятностью. Например, мы не можем сказать, что 1 в два раза больше, чем 0,5 для собаки.

Существуют такие проблемы, как переоснащение, которые делают неверной чисто математическую вероятностную точку зрения. Однако, поскольку вам нужно выбрать один из двух вариантов для своей программы, имеет смысл интерпретировать результат как двоичный подход больше или меньше 0,5, или, может быть, вам следует попробовать разрешить регулируемую погрешность (например,. 5 +/- x не определился).

person yo conway    schedule 27.11.2019
comment
Это различие между семантическим и интуитивным пониманием - очень интересное наблюдение. Помимо интуиции, я сейчас использую подход с допуском погрешности 0,5 +/- x. Однако мне сложно уверенно выбрать значение маржи x. Вероятность 0,75 от softmax заставила бы меня чувствовать себя довольно уверенно, в то время как значение 0,75 от сигмоида все еще заставляет меня сомневаться, достаточно ли это уже достаточно. Существуют ли какие-либо методы определения этого запаса достоверности x, кроме эмпирических проб и ошибок? Скажем, доля стандартного отклонения от 0,5 для данных поезда? - person Voy; 27.11.2019
comment
Я не знаю, есть ли хороший способ определить допустимую погрешность, кроме запуска вашего алгоритма на тестовом наборе для получения выходных значений. Затем вы можете сопоставить любое значение ошибки x с процентом достоверности ложных срабатываний. - person yo conway; 29.11.2019