Как установить пакеты Python в кластер Google Dataproc

Можно ли установить пакеты python в кластере Google Dataproc после создания и запуска кластера?

Я попытался использовать "pip install xxxxxxx" в главной командной строке, но это не сработало.

Документация Google Dataproc не упоминает об этой ситуации.


person Pablo Brenner    schedule 10.05.2018    source источник


Ответы (1)


Обычно это невозможно после создания кластера. Я рекомендую использовать для этого действие инициализации.

Как вы заметили, pip также недоступен по умолчанию. Итак, вы захотите запустить easy_install pip, а затем команду pip install.

Наконец, если вы намерены использовать этот кластер в какой-либо автоматизации и / или хотите герметичности, я рекомендую создать wheel, который вы сохраните в GCS и загрузите в действии init. Затем вы устанавливаете колесо. У Wheels есть дополнительное преимущество, заключающееся в том, что они быстрее, чем установка многих пакетов напрямую из pip.

Обновление 2019

См. Это руководство по настройке среды Python в Dataproc: https://cloud.google.com/dataproc/docs/tutorials/python-configuration.

person tix    schedule 10.05.2018
comment
Большое спасибо, при использовании Jupyter Notebook я смог установить пакеты с помощью пакета! Pip install в записной книжке. - person Pablo Brenner; 15.05.2018
comment
Отличная статья о настройке рабочих заданий pyspark, если это то, что вам нужно, включая объединение модулей с помощью Makefile и развертывание при выполнении заданий: developerzen.com/ - person Daniel Messias; 08.06.2018