Концепция лучшей постоянной потери в выводе vowpal wabbit и указанное практическое правило в учебнике

Я пытаюсь немного больше понять vowpal и наткнулся на это утверждение в учебнике по линейной регрессии. (https://vowpalwabbit.org/tutorials/getting_started.html)

«В конце выводятся более простые итоги. Лучшая константа и лучшая постоянная потеря работают, только если вы используете квадрат потери. Квадратная потеря — это значение по умолчанию Vowpal Wabbit. Они вычисляют лучший предиктор константы и потерю лучшего постоянного предиктора. .

Если средние потери не лучше, чем лучшие постоянные потери, что-то не так. В этом случае у нас слишком мало примеров для обобщения».

Исходя из этого контекста, у меня есть 2 связанных вопроса:

  1. Основана ли потеря лучшей константы на потере нулевой модели в линейной регрессии?
  2. Является ли общее эмпирическое правило, согласно которому «средние потери» не лучше, чем «потери наилучшей константы», применимо ко всем функциям потерь (поскольку в утверждении говорится, что «наилучшая константа» работает только для функции квадрата потерь по умолчанию)?

Заранее спасибо за любые ответы!


person Kenneth Foo    schedule 17.02.2020    source источник


Ответы (1)


Основана ли потеря лучшей константы на потере нулевой модели в линейной регрессии?

Если под нулевой моделью вы подразумеваете модель, которая всегда предсказывает наилучшую константу, то да.

Является ли общее эмпирическое правило, согласно которому «средние потери» не лучше, чем «потери наилучших констант», применимо ко всем функциям потерь?

Да. Если, всегда используя один и тот же прогноз (некую наилучшую константу, применимую к данной функции потерь), вы делаете лучше, чем изученная модель, это означает, что изученная модель уступает самой простой возможной модели. Простейшая модель для данной функции потерь всегда предсказывает один и тот же (наилучший постоянный) результат, игнорируя входные функции в данных.

Один из наиболее распространенных случаев, когда изученная модель уступает модели с наилучшей константой, — это слишком маленький набор данных. Когда набор данных невелик, у процесса обучения еще не было возможности полностью сойтись. Это также известно как подгонка.

Как рассчитывается наилучшая константа (для полноты)?

В случае линейной регрессии (гиперплоскость наименьших квадратов, vw --loss_function squared по умолчанию) лучшей константой является простое среднее (он же среднее) меток. Это сводит к минимуму квадратичные потери.

В случае квантильной потери (также известной как абсолютная ошибка, vw --loss_function quantile) лучшей константой является медиана меток, которая минимизирует сумму расстояний между метками. и предсказание.

person arielf - Reinstate Monica    schedule 19.02.2020
comment
Спасибо @arielf за дополнительный полный ответ! Это действительно помогает сформулировать мое понимание! - person Kenneth Foo; 20.02.2020
comment
Какова наилучшая постоянная модель логистических потерь? - person JOHN; 16.11.2020