Я пытаюсь запустить кластерный анализ (PAM) набора финансовых данных с большим шумом.
Существует более 100 переменных, многие из которых сильно коллинеарны.
Запуск алгоритма кластеризации для всего массива столбцов практически бессмысленен, учитывая количество шума и коллинеарность, и я не хочу использовать PCA, потому что в конечном итоге у меня будут компоненты, а не диапазоны существующих переменных для каждого кластера, что я планирую для дальнейшего анализа.
При оценке тенденции к кластеризации (статистика Хопкина) определенной группы, скажем, из 10 переменных, я могу определить, жизнеспособна ли кластеризация. Мой вопрос в том, есть ли способ зациклить статистику Хопкина для каждой возможной группы, скажем, из 10 переменных, чтобы я мог запустить алгоритм кластеризации в группе с лучшей статистикой Хопкина и т. Д.
Возможно, я ошибаюсь в этом, но я приветствую любые советы.
choose(100,10)
говорит, что это непрактично. - person G5W   schedule 16.08.2018