Какое максимальное количество рабочих узлов мы можем использовать в кластере в GCP Dataproc?

Я собираюсь обучить 5 миллионов строк данных, содержащих 7 категориальных переменных (строку), но скоро обучу 31 миллион строк данных. Мне интересно, какое максимальное количество рабочих узлов мы можем использовать в кластере, потому что даже если я наберу что-то вроде: 2 000 000, это не покажет никаких признаков ошибки.

Другой вопрос: как лучше всего определить, сколько рабочих узлов нужно?

Заранее спасибо!


person Fransisca Sibarani    schedule 22.07.2020    source источник


Ответы (1)


Максимальный размер кластера

Dataproc не ограничивает количество узлов в кластере, но у другого программного обеспечения могут быть ограничения. Например, известно, что существуют развертывания кластера YARN с 10 КБ узлов, поэтому вышеперечисленное может не работать для Spark на YARN, на котором работает Dataproc.

Кроме того, вам необходимо принять во внимание ограничения GCE, такие как различные квоты (ЦП, ОЗУ, диск, внешние IP-адреса и т. Д.) И ограничения QPS, и убедиться, что у вас их достаточно для такого большого кластера.

Я думаю, что 1k узлов - это разумный размер для начала для большого кластера Dataproc, если он вам нужен, и вы можете масштабировать его дальше, чтобы добавить больше узлов по мере необходимости после создания кластера.

Оценка размера кластера

Вы должны определить, сколько узлов вам нужно, в зависимости от вашей рабочей нагрузки и размера виртуальной машины, которую вы хотите использовать. Для вашего случая использования кажется, что вам нужно найти руководство по оценке размера кластера для обучения машинному обучению.

Или, в качестве альтернативы, вы можете просто выполнять двоичный поиск, пока не будете удовлетворены временем обучения. Например, вы можете начать с кластера из 500 8-ядерных узлов, и если время обучения слишком велико, увеличьте размер кластера до 600-750 узлов и посмотрите, уменьшится ли время обучения так, как вы ожидаете - вы можете повторять это, пока не будете удовлетворены временем обучения или пока он не перестанет масштабироваться / улучшаться.

person Igor Dvorzhak    schedule 22.07.2020