Сигмоидальная функция выводит число от 0 до 1. Является ли это вероятностью или это просто «да» или «нет» в зависимости от того, выше или ниже 0,5?
Минимальный пример:
Бинарная классификация кошек и собак. 0 - кошка, 1 - собака.
Могу ли я выполнить следующую интерпретацию выходных значений сигмоида:
- 0,9 - это наверняка собака
- 0,52 - это скорее собака, чем кошка, но все же не уверен
- 0,5 - совершенно не определились, может быть кошка или собака
- 0,48 - это скорее кошка, чем собака, но все еще не уверен
- 0,1 - это наверняка кошка
Или это было бы правильным способом интерпретации результатов:
- 0,9 - это собака
- 0,52 - это собака
- 0,5 - совершенно не определились, может быть кошка или собака
- 0,48 - это кошка
- 0.1 - это кошка
Обратите внимание, как в первом случае мы используем числовое значение для выражения вероятностей, а во втором случае мы полностью игнорируем вероятностную интерпретацию и свертываем ответы в двоичные. Что правильно? Вы можете объяснить почему?
Фоновый контекст, можете пропустить это:
Я нашел ряд источников, которые предполагают, что да, сигмовидный сигнал можно интерпретировать как вероятность:
- Источник да 1 - (...) сигмоид (z) даст значение (вероятность) от 0 до 1.
- Источник да 2 - "Выходные данные" должны поступать от функции, которая удовлетворяет свойствам функции распределения. для того, чтобы интерпретировать это как вероятности. (...) "сигмовидная функция" удовлетворяет этим свойствам.
- Источник да 3 -
tf.sigmoid(logits)
дает вам вероятности.
И ряд источников, которые предполагают обратное, этот сигмовидный сигнал нельзя интерпретировать как вероятности:
- Источник № 1 - (...) исходные значения не обязательно интерпретировать как исходные вероятности! em >
- Источник № 2 - Сигмоидальная диаграмма (...) не является функцией распределения вероятностей
- Источник нет (а также да) 3 - краткий ответ - нет, однако, в зависимости от потерь, которые вы используете , возможно, это ближе к истине, чем вы думаете.
(бонусные вопросы, ответ, чтобы выиграть машину!) Почему так много противоречивых ответов? Чем отличаются эти ответы? Я считаю маловероятным, что многие люди полностью ошибаются в этом - я думаю, они просто говорят о разных случаях или о каких-то разных фундаментальных предположениях. Какая разница, что мне не хватает?
Я знаю, что могу просто использовать softmax. Я также знаю, что сигмоид может использоваться для неисключительной мультиклассовой классификации (Исходный мульти 1, Source multi 2, Source multi 3) - хотя даже тогда неясно, могут ли такие множественные сигмоиды вывести вероятности различных классов или просто «да или нет», но для нескольких классов. В моем случае, однако, меня интересует эксклюзивная двухклассовая (бинарная) классификация и то, можно ли использовать сигмоид для определения ее вероятностей или следует использовать двухклассовый softmax.