Количественная оценка влияния входных данных модели на выходные данные модели

Введение

В нашем предыдущем посте мы подробно рассмотрели методологию метрики Maker’s Capital at Risk. Таким образом, его цель состоит в том, чтобы количественно оценить потенциальные потери протокола с учетом профиля риска портфеля и смоделированных скачков рыночных цен. Затем этот показатель используется для оценки необходимого буфера излишков, который действует как механизм амортизации капитала для управления хвостовыми рисками. Совсем недавно он использовался для руководства Стратегией роста Maker путем оценки текущего разрыва: сколько избыточного буфера должно быть в протоколе (предлагаемое значение — 150M) по сравнению с тем, сколько имеется в настоящее время (около 70M).

Помимо объяснения методологии модели и того, как используются ее выходные данные, крайне важно сделать взаимосвязь между входными данными модели и выходными данными модели объяснимой. Если выходные данные модели изменяются, мы хотим понять, почему. В предыдущем посте мы поделились некоторыми общими механизмами, но мы были ограничены узким кругом вопросов, на которые мы могли ответить. Это требует погружения в различные входные данные модели и применения знаний предметной области для создания набора функций, которые используются для вычисления выходных данных, прямо или косвенно.

Насколько важны различные функции на выходе модели? Какая функция больше всего способствовала выходу определенной модели? Ответить на подобные вопросы и есть цель этого поста. Вы можете найти базовый код в конце поста.

Методология

Мы начнем с пересмотра взаимосвязи между моделью капитала под риском и моделью залогового риска. Выходные данные модели риска капитала, как наиболее часто используемый, представляют собой метрику на уровне портфеля, которая объединяет выходные данные модели залогового риска по всем типам хранилищ. Результатом модели залогового риска является процентная надбавка за риск, которая затем умножается на риск долга, чтобы получить риск капитала для отдельного типа хранилища. Портфельный капитал под риском рассчитывается путем агрегирования капитала под риском по всем типам хранилищ.

В этом анализе при рассмотрении долгового риска в связи с финансовым риском мы отфильтровываем только долг, обеспеченный волатильными активами, поскольку они с наибольшей вероятностью будут ликвидированы из-за рыночных потрясений. Следовательно, они потенциально могут способствовать накоплению потерь протокола (риск платежеспособности). Другие источники риска, такие как отмена привязки, не входят в сферу применения данной методологии.

Помимо высокоуровневой метрики «Капитал портфеля под риском», нас интересуют конкретные функции, которые влияют на результаты его базовых симуляций с помощью модели залогового риска. Для этого мы разбиваем высокоуровневую модель на отдельные симуляции, которые выполняются на уровне типа хранилища.

Для этого мы рассматриваем имитационную модель как процесс генерации данных. Мы смотрим на эти синтетические исторические данные и вычисляем функции, которые, по нашему мнению, оказывают сильное влияние на результат модели (премия за риск). Это не прямые входные данные в имитационную модель, а производные сигналы, влияющие на выходные данные. Эти функции включают в себя:

  • Коэффициент обеспечения, взвешенный по долгу (насколько хорошо обеспечены хранилища определенного типа, взвешенные по их долговому риску)
  • Показатель ликвидности (процент от суммы, полученной, если весь обеспеченный долг актива был продан с аукциона. В случае ETH это общий долг ETH-A, ETH-B, ETH-C и stETH-A)
  • Долговая подверженность (общая непогашенная DAI, отчеканенная из определенного типа хранилища, обеспеченная волатильным активом)
  • Доля защищенных хранилищ (отдельная модель, которая выводит процент подверженности долговым обязательствам того же рода, которая, по оценкам, защищена от данного шока рыночных цен. Подробнее о ее методологии)

Мы используем стандартный отраслевой оценщик ML Light Gradient Boosted Model (GBM) и ищем наиболее подходящий оценщик с помощью Grid Search CV (выполняя кросс-валидированный поиск по сетке параметров). Это делается путем сопоставления входных данных модели (вышеуказанные функции) с выходными данными модели (премия за риск). Чтобы погрузиться в объяснимость модели, мы используем SHAP (Shapley Additive exPlanations), метод объяснимости ML, основанный на игре, теоретически оптимальной значения Шепли.

Анализ

Мы фокусируемся на анализе исторических данных определенного типа хранилища, в нашем случае мы выбрали ETH-A, так как это тип хранилища с наибольшим риском долга. Прежде чем погрузиться в анализ признаков, мы рассмотрим парный график, который показывает попарные отношения между признаками и целью в наборе данных. Мы можем увидеть некоторые закономерности, которые могут подтвердить нашу интуицию о том, как различные функции влияют на цель (надбавка за риск):

  • Премия за риск имеет тенденцию к увеличению с увеличением долгового риска (положительная корреляция)
  • Премия за риск имеет тенденцию к увеличению с уменьшением доли защищенных хранилищ (отрицательная корреляция).
  • Премия за риск имеет тенденцию к увеличению с уменьшением коэффициента обеспечения, взвешенного по долгу (отрицательная корреляция)
  • Премия за риск имеет тенденцию к увеличению с уменьшением показателя ликвидности (отрицательная корреляция).

Учитывая, что основной процесс генерации данных известен (имитационная модель), мы также можем сделать более сильное утверждение о коррелированных независимых переменных, оказывающих причинное влияние на зависимую переменную. Наилучший оценщик выбирается по выбранному максимальному среднему перекрестно проверенному показателю, который в нашем случае равен R в квадрате. Оценка тестового набора составляет 0,83, что является хорошим показателем того, что мы сможем найти некоторые значимые идеи в анализе объяснимости. В качестве предостережения важно отметить, что набор данных все еще довольно мал (4 месяца ежедневных данных), поэтому вполне вероятно, что мы в некоторой степени подгоняем данные. Мы использовали перекрестную проверку, чтобы обнаружить это, и это не кажется достаточной проблемой, чтобы не продолжать наш анализ. Тем не менее со временем мы соберем больше данных и создадим еще более эффективные оценщики.

На приведенной ниже диаграмме мы можем увидеть количественное влияние каждой функции на премию за риск. Под капотом он представляет собой среднее абсолютное значение значений SHAP. Двумя показателями, оказывающими наибольшее влияние на результаты модели, являются показатель ликвидности и доля защищенных хранилищ. Менее значительными являются долговой риск и коэффициент обеспечения, взвешенный по долгу.

Мы также можем суммировать влияние всех функций и посмотреть, в каком направлении модель обнаружила влияние функции на выходные данные модели. Под капотом это означает построение значений SHAP для каждой функции для каждого образца. Понятно, что подобранная модель хорошо уловила наблюдаемые выше корреляции между функциями и целью. Например, низкие значения показателя ликвидности (обозначены синим цветом) коррелировали с высоким значением премии за риск.

Методология SHAP становится особенно эффективной при объяснении индивидуальных прогнозов. В приведенном ниже объяснении показаны функции, каждая из которых способствует перемещению вывода модели от базового значения (средний вывод модели по набору обучающих данных, который мы передали) к выводу модели. Это возможно из-за аддитивного характера значений Шепли. Функции, повышающие прогноз, показаны красным цветом, а те, которые снижают прогноз, — синим. Прогнозируемая премия за риск для этой выборки составила 2,34%, что выше базовой премии за риск в 1,4% (среднее значение по всему набору данных). Основными причинами этого являются относительно низкая доля защищенных хранилищ и большой долговой риск. Мы также можем видеть, что, несмотря на то, что показатель ликвидности был рассчитан как функция, оказавшая наибольшее влияние на весь набор обучающих данных, он не отклонялся от среднего значения в этом конкретном прогнозе настолько, чтобы оказать сильное влияние на выходные данные модели.

Другой вид анализа заключается в визуализации взаимосвязи между целью и конкретной функцией. Мы используем графики частичной зависимости для оценки предельного влияния признака на прогнозируемый результат. Если бы мы использовали модель линейной регрессии, лот с частичной зависимостью всегда показывал бы линейную зависимость. Поскольку мы использовали тип модель с градиентным усилением, мы также можем обнаруживать нелинейные зависимости. В приведенном ниже примере визуализации предельного вклада доли защищенных хранилищ в прогнозируемую премию за риск мы видим, что, как уже отмечалось, между ними существует правильно обнаруженная отрицательная корреляция. Стоит отметить, что в значении признака есть области, где по-прежнему не хватает данных, учитывая как небольшие данные, которые мы собрали до сих пор, так и отсутствие дисперсии в распределении значений признака.

Заключение

Этот пост был глубоким погружением в объяснение взаимосвязей между входными данными модели залогового риска и ее выходом (премией за риск). Построение такого понимания имеет решающее значение, учитывая, что оно представляет собой основополагающую методологию моделирования, которая вносит свой вклад в показатель портфельного капитала под риском, который используется для руководства некоторыми ключевыми управленческими решениями в MakerDAO. Это постоянное исследование с целью улучшения децентрализованного управления и обеспечения прозрачности того, как работают лежащие в его основе модели.

Помимо проверки того, как различные функции влияют на выходные данные модели, есть дополнительные ценные сведения. Мы узнали, какие функции оказывают наибольшее влияние на выходные данные модели. Теперь мы можем объяснить, какие функции способствовали предсказанию модели для интересующего нас отдельного примера. Наконец, мы можем оценить предельный вклад каждой функции в выходные данные модели.

Благодарности

Спасибо Primoz Kordez, Eryk Lewinson, Marko Stembergar, Michael Zargham и Sebastien Derivaux за чтение предыдущих черновиков этой статьи и предоставление ценных отзывов.

Ресурсы