Ален Бриансон, доктор философии, вице-президент по обработке данных, Cerebri AI

В этом аналитическом документе представлены избранные статьи и исследования, в которых машинное обучение применялось к временным рядам (сериям событий) с целью управления рисками в финансовых учреждениях. Что различается между выбранными исследованиями, так это поток данных / временные ряды и используемая обработка. Этот документ ни в коем случае не является анализом состояния исследований, скорее это серия точек соприкосновения, которые раскрывают:

  • возрастающее удобство использования этих методов в финансовой индустрии.
  • относительная важность событий с различными атрибутами.
  • основные моменты ключевых техник, относящихся к системе ценностей Cerebri.

Cerebri AI разработала систему ценностей Cerebri, которая основана на машинном обучении и использует радикально новый метод повышения успеха клиентов. Cerebri Values ​​дает количественную оценку приверженности каждого клиента бренду или продукту, а также динамически прогнозирует «следующие оптимальные действия» в масштабе, что помогает крупным компаниям сосредоточиться на тактике максимальной рентабельности инвестиций для ускорения прибыльного роста. В случае финансовых или страховых организаций риск является важным элементом этой структуры. Именно в этом контексте подчеркивается связь этих документов с Cerebri AI.

Шарпиньон, Мари-Лор, Энгерран Хорель и Флора Тиксье, «Прогнозирование риска потребительского кредитования». Стэнфордский университет (2014 г.)

Charpignon et al. использовали машинное обучение для прогнозирования кредитного риска потребителей. Они использовали четыре типа моделей (логистическая регрессия, деревья классификации и регрессии, деревья повышения градиента и случайный лес), применяемые к широкому кругу точек данных, включая: возраст заемщика, количество иждивенцев в семье, ежемесячный доход, ежемесячные расходы. , общий баланс кредитной карты / общий лимит кредитной карты и статистика платежей. Как и ожидалось, машинное обучение могло предсказывать значения по умолчанию с хорошей точностью. Соответствующим элементом этого анализа с точки зрения проектирования было переоснащение используемых алгоритмов случайного леса. Это переоснащение указывает на то, что критерии, используемые для традиционного анализа рисков, имеют избыточность. Эти критерии часто вычисляются из необработанных данных, а не из сырых данных. Потоки вычисленных данных с большей вероятностью будут коррелированы друг с другом и более склонны к переобучению. Использование временных рядов (так называемых «пути клиента») необработанных точек данных должно помочь избежать этого переоснащения и повысить производительность. Усиливающие обучающие системы должны уметь правильно использовать необработанные данные, а также, возможно, интегрировать бизнес-правила.

Хандани, Амир Э., Адлар Дж. Ким и Эндрю В. Ло. «Модели потребительского кредитного риска с помощью алгоритмов машинного обучения». Journal of Banking & Finance 34 (2010): 2767–2787

Khandani et al. применял машинное обучение к событиям (временным рядам) для выполнения анализа рисков дефолта и просрочки потребительского кредита. Они использовали данные об уровне транзакций, кредитном бюро и балансе счетов для отдельных потребителей. Некоторые из используемых атрибутов включали тип расходов (дискреционные или недискреционные, ориентированные на автомобиль, снятие наличных и т.п.), выходящие за рамки традиционных оценок, которые меняются медленнее. Их прогнозы были очень точными при предсказании событий на год вперед. Это показывает перспективность использования атрибутов моделирования необработанных серий событий различной природы. Был подчеркнут важный элемент, как управлять широкими экономическими вариациями, которые влияют на / базовый уровень потребительских кредитов.

Соуза, Мария Роча, Жоао Гама, Элисио Брандао, «Введение меняющейся во времени экономики в кредитный скоринг», рабочие документы FEP n. 513 ноября 2013 г. ISSN: 0870–8541

Соуза и др. сравнил традиционную структуру (например, не основанную на временных рядах) с моделью, использующей изменяющиеся во времени факторы, включая внутренний анализ дефолтов и макроэкономические тенденции. Они пришли к выводу, что введение потоков данных подходит для решения проблемы временной деградации моделей кредитного скоринга и предотвращения определенных отклонений.

Морисон, Дж. Ф. «Объединение кредитного скоринга и данных временных рядов», опубликовано в журнале Risk Management Association (май 2010 г.)

Моррисон объединил информацию о кредитном скоринге и макроэкономические данные, организованные в виде временных рядов. Вместо того, чтобы использовать общие макроэкономические данные, полученные из третьего источника, и систематическую ошибку агрегирования рисков, он агрегировал временные ряды, связанные с поведением потребителей в одной и той же географической зоне, подвергаясь, таким образом, одинаковому макроэкономическому поведению. Комбинация данных, полученных из макросов, и агрегированных данных, вероятно, является наиболее надежным подходом в будущем.

События в потребительских путешествиях, как и большинство прошлых событий, не следуют регулярной схеме. Выплаты по заработной плате, автоматические выплаты - явные исключения. Разрывы в событиях приводят к изменчивости качества исходных данных. Эта изменчивость может быть обработана путем моделирования дисперсии данных (более шумные данные имеют большую дисперсию). Вариации / дисперсия качества данных были поняты и смоделированы через изменения дисперсии данных в моделях ARCH (авторегрессионная условная гетероскедастичность). Модели ARCH обычно используются при моделировании финансовых временных рядов, которые демонстрируют изменяющуюся во времени волатильность и хорошо подходят для макротрендов. Cerebri AI использует схемы на основе памяти, которые хорошо подходят для обработки серий событий с временными задержками неизвестного размера и продолжительности между важными событиями из пути потребителя.

Заключение:

Применение машинного обучения к потокам событий для прогнозирования рисков - это развивающаяся область. Cerebri использует лучшие в своем классе методы и свой собственный показатель приверженности клиентов (Cerebri Value), чтобы предоставлять прогнозы, рекомендации и улучшать процессы.