Концепция лучшей постоянной потери в выводе vowpal wabbit и указанное практическое правило в учебнике

Я пытаюсь немного больше понять vowpal и наткнулся на это утверждение в учебнике по линейной регрессии. (https://vowpalwabbit.org/tutorials/getting_started.html)

«В конце выводятся более простые итоги. Лучшая константа и лучшая постоянная потеря работают, только если вы используете квадрат потери. Квадратная потеря — это значение по умолчанию Vowpal Wabbit. Они вычисляют лучший предиктор константы и потерю лучшего постоянного предиктора. .

Если средние потери не лучше, чем лучшие постоянные потери, что-то не так. В этом случае у нас слишком мало примеров для обобщения».

Исходя из этого контекста, у меня есть 2 связанных вопроса:

Основана ли потеря лучшей константы на потере нулевой модели в линейной регрессии?
Является ли общее эмпирическое правило, согласно которому «средние потери» не лучше, чем «потери наилучшей константы», применимо ко всем функциям потерь (поскольку в утверждении говорится, что «наилучшая константа» работает только для функции квадрата потерь по умолчанию)?

Заранее спасибо за любые ответы!

vowpalwabbit

Kenneth Foo 17.02.2020 источник

Ответы (1)

arrow_upward
2
arrow_downward

Основана ли потеря лучшей константы на потере нулевой модели в линейной регрессии?

Если под нулевой моделью вы подразумеваете модель, которая всегда предсказывает наилучшую константу, то да.

Является ли общее эмпирическое правило, согласно которому «средние потери» не лучше, чем «потери наилучших констант», применимо ко всем функциям потерь?

Да. Если, всегда используя один и тот же прогноз (некую наилучшую константу, применимую к данной функции потерь), вы делаете лучше, чем изученная модель, это означает, что изученная модель уступает самой простой возможной модели. Простейшая модель для данной функции потерь всегда предсказывает один и тот же (наилучший постоянный) результат, игнорируя входные функции в данных.

Один из наиболее распространенных случаев, когда изученная модель уступает модели с наилучшей константой, — это слишком маленький набор данных. Когда набор данных невелик, у процесса обучения еще не было возможности полностью сойтись. Это также известно как подгонка.

Как рассчитывается наилучшая константа (для полноты)?

В случае линейной регрессии (гиперплоскость наименьших квадратов, vw --loss_function squared по умолчанию) лучшей константой является простое среднее (он же среднее) меток. Это сводит к минимуму квадратичные потери.

В случае квантильной потери (также известной как абсолютная ошибка, vw --loss_function quantile) лучшей константой является медиана меток, которая минимизирует сумму расстояний между метками. и предсказание.

arielf - Reinstate Monica 19.02.2020

comment

Спасибо @arielf за дополнительный полный ответ! Это действительно помогает сформулировать мое понимание! - Kenneth Foo; 20.02.2020