Основанная двумя Morgan Stanley Quants в 1980-х годах, Джерри Бамбергером и Нунцио Тарталья, «парная торговля» представляет собой инвестиционную стратегию, которая использует неравновесие финансовых рынков. Стратегия изучает разброс цен двух ценных бумаг, которые, как исторически доказано, следуют одному и тому же долгосрочному пути.

Классический и простой пример для понимания стратегии - выбрать в качестве нашей пары Coca-Cola (KO) и Pepsi (PEP). Эти две компании создают очень похожий продукт по своему основному виду деятельности: газированные напитки. Используя статистические тесты (которые будут разработаны в следующих разделах), мы можем доказать, что цена этих двух ценных бумаг движется по схожему пути, у них общие минимумы и максимумы. Если цена на Pepsi значительно вырастет, а цена на Coca-Cola снизится / останется прежней, разброс этих цен увеличится в абсолютном выражении.

Трейдер, использующий стратегию парной торговли, затем купит Coca-Cola и продаст Pepsi, поскольку мы почти уверены, что цены двух компаний вернутся к определенному «среднему» значению. Сигналы обычно срабатывают, когда спред превышает определенный порог, например ± 2σ.

Приложение машинного обучения в торговле парами

Первый шаг стратегии парной торговли - определение прибыльной пары. Благодаря достижениям в области технологий объем данных, доступных на финансовых рынках, значительно вырос. Поэтому найти прибыльные пары стало непросто. Применение OPTICS (Мораес Сарменто, Симао и др., 2020) продемонстрировало улучшенный средний коэффициент Шарпа портфеля (отношение вознаграждения к вариабельности) по сравнению со стандартными подходами.

Машинное обучение без учителя: ОПТИКА

Точки упорядочивания для определения структуры кластеризации, также известной как ОПТИКА, представляют собой алгоритм неконтролируемого машинного обучения для поиска кластеров на основе плотности в пространственных данных. Техника, используемая в OPTICS, сравнима с более популярным алгоритмом кластеризации DBSCAN, но в основном добавляет еще две функции: (1) Core Distance и (2) Reachability Distance.

  • «Базовое расстояние» - это минимальное значение радиуса, необходимое для классификации определенной точки данных, p, как центральной точки. Если точка не является центральной точкой, расстояние до нее не определено.
  • «Расстояние достижимости» между точками p относительно другой точки данных q является максимумом Core Distance p и расстояние (евклидово, манхэттенское, минковское…) между p и q. Однако, если точка q не является базовой точкой, то Расстояние достижимости не определено.

Таким образом, OPTICS устраняет один из основных недостатков DBSCAN - проблему обнаружения значимых кластеров в данных различной плотности.

Рамки выбора пар

Предлагаемая структура выбора пар содержит три основных раздела:

  1. Уменьшение размерности
  2. Обучение без учителя, ОПТИКА
  3. Выбор пары на основе правил

Уменьшение размерности

При работе с набором данных мы обычно называем количество функций его размерностью. Снижение размерности помогает уменьшить количество функций в наборе данных. Производительность алгоритмов прогнозирования может быть снижена из-за слишком большого количества функций, это явление также называют «проклятием размерности». Следовательно, нам нужно найти компактное представление нашего набора данных о ценах, который состоит из акций S & P500.

С математической точки зрения, PCA - это статистическая процедура, которая использует ортогональное преобразование для преобразования набора наблюдений возможно коррелированных переменных в набор значений, которые являются линейно некоррелированными переменными.

Мы применим PCA к нормализованному ряду доходности, определяемому как:

Причина, по которой мы применяем PCA к ряду доходности, а не к ряду цен, заключается просто в том, что цены являются приблизительно случайным блужданием. При предположении наблюдений i.i.d, PCA будет обобщаться от выборки к генеральной совокупности, однако это может не выполняться при наблюдениях, отличных от i.i.d.

Количество определенных основных компонентов характеризует количество функций для каждого представления актива. Поскольку к нашим данным будет применяться ОПТИКА, а также из-за «проклятия размерности», описанного ранее выше, мы не хотим выбирать большое количество основных компонентов.

Кластеризация с оптикой

Учитывая характер нашей проблемы, при поиске подходящего алгоритма для нашей стратегии парной торговли нам необходимо определить некоторые требования:

  • Количество кластеров не следует забивать заранее, так как мы не хотим влиять на процесс кластеризации.
  • Ценные бумаги не следует группировать.
  • Не должно быть никаких предположений относительно формы наших кластеров.
  • Должно быть строгое распределение, учитывающее выбросы, иначе количество комбинаций при выборе пар будет слишком важным.

По своей природе DBSCAN и OPTICS - это два алгоритма, устойчивых к выбросам. Для обоих этих алгоритмов параметры «ε», максимальное расстояние между двумя выборками, чтобы один считался соседним с другим, и «minPts», который символизирует минимальное количество точек, необходимое для формирования плотной области. ОПТИКА хотя и вводит некоторые важные процессы, которые позволяют варьировать реализацию ε, это означает, что алгоритм определит оптимальное ε ' для инвестора, которому нужно будет только указать «minPts».

Затем алгоритм OPTICS облегчает задачу трейдера, учитывая различную плотность кластеров.

График t-SNE - Визуализация

После кластеризации компактного набора данных с помощью алгоритма OPTICS его необходимо визуализировать. График t-SNE (t-распределенное стохастическое соседнее вложение) - это один из подходов к визуализации многомерных наборов данных и их кластеров в двумерный граф.

Объект селектора использует метод optics (), который уже содержит статистическую процедуру PCA и фиксированное количество minPts. После успешного формирования потенциальных пар (то есть состояния до выбора на основе правил) график t-SNE показывает нам кластеры. На рисунке ниже каждая точка данных представляет акцию S & P500. Акции, которые являются более прозрачными (более низкая альфа), не классифицируются. В этом примере у нас сформировано всего 10 кластеров плюс неклассифицированные.

Выбор пары на основе правил

Выходные данные алгоритма OPTICS дают 10 четко определенных кластеров. Затем каждая акция в данном кластере сопоставляется с другими акциями из той же группы. В этом примере общее количество созданных комбинаций, то есть общее количество пар, составляет 347. Однако эти пары - только кандидаты. Обязательно, чтобы равновесие этих пар было устойчивым. Предлагаемая модель содержит набор из 4 правил, применяемых к кандидатам:

  • Тест Энгла-Грейнджера - проверка совместной интеграции двух акций, образующих пару.
  • Показатель Херста - ряд должен находиться в диапазоне 0–0,5, чтобы гарантировать, что временной ряд (спреда) имеет возврат к среднему. Коэффициент H количественно определяет относительную тенденцию временного ряда либо сильно регрессировать к среднему значению, либо следовать за трендом.
  • Период полураспада среднего возврата - указывает, сколько времени требуется временному ряду для возврата к среднему значению. Интуитивно понятно, что возврат к среднему ряду может занять много времени. Следовательно, пара может быть невыгодной, если трейдеру придется ждать значительное время, прежде чем спред вернется к своему среднему уровню. В предложенной модели условие составляет 1 день ‹период полураспада‹ 252 дня.
  • Наконец, спред должен пересекать свое среднее значение как минимум 12 раз в год, что в среднем дает трейдеру одна сделка в месяц.

Проверенные пары - визуализация

Кластеризация и подход на основе 4 правил приводит к 3 парам:

  • CPB-KR
  • ГИС-К
  • CPB-GIS

Заключение

В этой статье применяется метод, предложенный Мораесом Сарменто, Симау (и др., 2020). Предложенная методология продемонстрировала, что стратегию парной торговли можно улучшить с помощью OPTICS, алгоритма машинного обучения без учителя. Применение OPTICS в сочетании с надежными критериями выбора пар на основе правил обеспечивает лучшую доходность с поправкой на риск для портфелей, содержащих ETF.

Следующие шаги

  • Создавайте различные портфели, содержащие ценные бумаги из разных классов активов
  • Примените модель парной торговли с помощью OU Process
  • Добавьте функцию графика достижимости в класс PairClusters

использованная литература