Недавно я наткнулся на доклад на конференции Joglekar (2014), в котором используется двухэтапный подход к построению портфелей акций с низким риском и стабильной доходностью. Идея проста:

Шаг 1: Выполните кластеризацию на основе корреляции для набора финансовых инструментов.

Шаг 2: Используйте генетический алгоритм для создания оптимального портфеля.

Почему бы не реализовать это массово с помощью Apache Spark? В этом посте я объясню, как (и зачем) это делать, основываясь на ежедневной истории цен закрытия 2000 акций (примерно за 5 лет) (составляющие NASDAQ; набор данных из главы 9 Расширенная аналитика с помощью Spark).

Какое отношение к этому имеет кластеризация?

Широко используемой методикой управления рисками является диверсификация портфеля. В основном это означает, что вы хотите, чтобы акции в вашем портфеле были другими. Со статистической точки зрения одним из способов измерения этой разницы является корреляция. Найдите минутку и подумайте о следующих (упрощенных) сценариях:

  • Большинство акций в портфеле имеют (высокую) положительную корреляцию.

В таких ситуациях ожидается, что цены на акции будут двигаться в одном направлении, поэтому, если ваш прогноз верен…….

Первоначально опубликовано на www.datareply.co.uk.