В этом небольшом исследовании для прогнозирования цены серебра используется штрафная регрессия на основе ряда финансовых показателей. Штрафная логистическая регрессия или регуляризация - это тип логистической модели, которая штрафует или снижает влияние определенных переменных. Методы регуляризации используются, когда набор данных содержит значительное количество переменных без небольшого указания того, какие из них, в частности, будут использоваться в регрессионной модели. Чтобы избежать переобучения модели под данные, методы регуляризации накладывают штраф, чтобы уменьшить влияние некоторых переменных, не удаляя их полностью из уравнения. В идеале это дает нам модель, показывающую, какие переменные имеют большее влияние на прогнозную ценность по сравнению с другими. Существует ряд методов построения модели регрессии со штрафами, но в этом исследовании будут рассмотрены методы лассо и эластичной сети. Для программного обеспечения мы будем использовать JMP, в котором есть несколько полезных встроенных инструментов для корректировки наших моделей при необходимости.

Набор данных включает информацию о 90 различных переменных, описывающих обменные курсы, процентные ставки и фондовые рынки. Нас интересует только подмножество из 60, которые описывают возвращаемые и запаздывающие возвращаемые значения базовых переменных. Мы построили ряд моделей, используя разные методы, чтобы определить, какие из них могут обеспечить наиболее точный прогноз цен на серебро на основе глобальных показателей. Наше основное внимание уделяется методам лассо и эластичной сетки, как базовой форме, так и с использованием адаптивной техники. Мы также построили модель с использованием распределения Коши, чтобы в идеале игнорировать влияние выбросов и обеспечить более точный прогноз на основе нормализованного набора данных.

Мы начали с построения стандартной модели наименьших квадратов с использованием всех потенциальных переменных. Набор данных был сегментирован на разделение 60/20/20 для создания наборов данных для обучения, проверки и тестирования (эта группировка также используется для построения оставшейся модели). Базовая стандартная модель наименьших квадратов использует все 60 интересующих переменных. Это помогает обеспечить основу при предположении, что все переменные оказывают значительное влияние на прогнозные значения серебра. Это также дает нам предварительное представление о том, какие переменные с большей вероятностью попадут в нашу окончательную модель, изучая влияние каждой из них в этой наивной модели.

Техника «лассо»

Техника лассо позволяет уменьшить величину переменных до абсолютного нуля, эффективно устраняя их влияние на прогнозную модель. В поисках наиболее подходящей модели мы использовали как базовый, так и адаптивный метод лассо. Наша первая модель, использующая метод базового лассо, привела к значению R-квадрата около 0,365 на тестовой выборке. Хотя это не слишком высокое значение, 36,5% - относительно полезная модель. Среднеквадратичное значение 0,0189 также указывает на то, что это хорошая модель. Мы также можем видеть, что эта модель включает значение лямбда 0,06. Когда лямбда мала, модель аналогична оценкам методом наименьших квадратов. Однако по мере увеличения значение переменных приближается или достигает нуля. В этой модели лямбда относительно мала, что означает, что переменные не нуждаются в большой регуляризации.

Адаптивные версии лассо и эластичной сети пытаются меньше наказывать переменные, когда они действительно влияют на переменную отклика. Адаптивные модели должны давать оценки, аналогичные тем, которые вы получили бы при использовании модели только с переменными, которые фактически влияют на переменную ответа. Разница в том, что адаптивная модель по-прежнему использует все переменные, просто наказывая бесполезные, чтобы они оказали незначительное влияние.

Построение новой модели с помощью метода адаптивного лассо дает несколько иной результат. Наше значение R-квадрата уменьшилось до 0,302, а RMSE увеличилось до 0,02. Адаптивная версия лассо и эластичной сети пытается меньше наказывать переменные, когда они действительно влияют на реакцию. Свидетельство этого можно увидеть в новом значении лямбда, равном всего 0,011. Модель становится более надежной при идентификации предикторов, которые должны иметь нулевые коэффициенты, при этом снижается штраф, налагаемый на определенные переменные.

Метод эластичной сети

Одним из самых больших преимуществ метода эластичной сети является то, что он сочетает в себе методы из метода лассо, который наказывает на основе суммы значений коэффициентов, и метода гребня, который наказывает на основе суммы квадратов значений коэффициентов. Короче говоря, метод эластичной сети формирует группы переменных на основе корреляции. Затем, когда он находит сильное значение предиктора, он включает в модель всю связанную группу. В идеале это позволяет избежать потери информации за счет исключения переменных просто потому, что они коррелированы, но по-прежнему налагаются штрафы, чтобы уменьшить влияние, которое могут иметь определенные переменные. Мы создали две модели, одну с использованием базового метода, а другую с адаптивным методом, чтобы изучить любые отличия от методов лассо.

Стандартная модель эластичной сетки дала нам значение R-квадрата 0,365 на тестовой выборке, что было очень близко к модели лассо. Среднеквадратичное значение было почти таким же, как и наш штраф лямбда для этой модели. Это говорит о том, что переменные, выбранные и наказанные моделью лассо, обрабатывались одинаково при использовании метода эластичной сети. Использование адаптивного метода этой техники дает аналогичные результаты с адаптивной моделью лассо. Мы получили модель с R-квадратом 0,301 и RMSE 0,021 на тестовой выборке, которая имитирует результаты адаптивной модели лассо. Значение лямбда снова невелико и составляет всего 0,011, что указывает на большую снисходительность к некоторым переменным.

Использование распределения Коши

Мы также хотели попробовать построить модель с использованием распределения Коши. Короче говоря, распределение Коши помогает устранить смещение из-за основных выбросов. Теоретически это может помочь создать более надежную модель, поскольку экстремальные значения меньше влияют на общее распределение. Мы построили модель, используя технику адаптивного лассо и распределение Коши. Это вычислило обобщенное значение R-квадрата 0,408 и значительный штраф за лямбда 5,347. Это предполагает, что модель, использующая Коши, будет гораздо более ограничивающей для менее важных переменных.

Сравнение моделей

Создав 6 моделей, мы можем, наконец, сравнить результаты, чтобы определить наиболее подходящие для наших данных. Внесение прогнозных значений в сравнительную модель немного изменило значения, но мы все еще можем сделать некоторые выводы на основе полученных результатов. Мы можем видеть, что основные методы лассо и эластичной сети, по-видимому, имеют наибольшую точность на тестовых данных, со значениями R-квадрата около 0,408 каждый. Наихудшей моделью является наша стандартная модель наименьших квадратов, которая практически не имела надежности в тестовом наборе данных. RASE для наших моделей лассо и эластичной сетки составляет около 0,0189, а AAE - еще одно идеально низкое значение - всего 0,0149. Таким образом, мы можем предположить, что методы эластичной сетки или лассо дадут нам наиболее подходящую модель. Поскольку эластичная сетка была немного лучше, мы воспользуемся этим методом для нашего окончательного анализа.

Результаты

Возвращаясь к нашей базовой модели эластичной сети, мы видим, что 7 переменных оказали измеримое влияние на прогнозные значения RSLV. Ряд переменных связан с обменными курсами на международном уровне; RFXF, RFXA, RFXC, RFXS и LRFXY указывают на то, что стоимость валюты в соответствующих странах влияет на цену серебра. Хотя RTIP не привязан к конкретной стране, это рассчитанная мера инфляции. Неудивительно, что это один из биметаллических стандартов, так как многие валютные факторы влияют на прогнозирование стоимости серебра.

На нижнем изображении мы можем видеть переменные, перечисленные в порядке их важности для модели. RFXF, стоимость швейцарского франка, объясняет более 35% прогнозной модели. RUSO, обозначающая цену на нефть, обычно не ассоциируется со стоимостью серебра. Однако в этой модели на удивление он составляет 20,5%. Индекс материального сектора RXLB занимает только третье место с 18,6%. Из-за большого значения серебра в электронике и других промышленных товарах было бы разумно ожидать, что индекс материалов будет хорошим предсказателем стоимости металла.

Набор данных, использованный в этом исследовании, можно найти на GitHub (SilverWeeklyStudy.jmp).