Газированная вода - запустить скрипт Python как приложение Spark.

У меня проблемы с Sparkling Water для запуска скрипта Python в качестве приложения Spark. Я использую эту команду для выполнения своего скрипта в Spark:

./bin/spark-submit \

--packages ai.h2o: газированная вода-core_2.10: 1.5.12 \

--py-файлы $ SPARKLING_HOME / py / dist / pySparkling-1.5.12-py2.7.egg $ SPARKLING_HOME / Python / test.py

и у меня есть эта ошибка падения:

py4j.protocol.Py4JError: попытка вызвать пакет.

журналы:

> Traceback (most recent call last):
  File "/Users/Documents/sparkling-water-1.5.12/Python/test.py", line 5, in <module>
    hc= H2OContext(sc).start()
  File "/Users/Documents/sparkling-water-1.5.12/py/dist/pySparkling-1.5.12-py2.7.egg/pysparkling/context.py", line 72, in __init__
  File "/Users/Documents/sparkling-water-1.5.12/py/dist/pySparkling-1.5.12-py2.7.egg/pysparkling/context.py", line 96, in _do_init
  File "/Users/Documents/spark-1.5.2-bin-hadoop2.4/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py", line 726, in __getattr__
py4j.protocol.Py4JError: Trying to call a package.
16/04/11 16:58:39 INFO SparkContext: Invoking stop() from shutdown hook
16/04/11 16:58:39 INFO SparkUI: Stopped Spark web UI at http://192.168.181.84:4042
16/04/11 16:58:39 INFO DAGScheduler: Stopping DAGScheduler
16/04/11 16:58:39 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
16/04/11 16:58:39 INFO MemoryStore: MemoryStore cleared
16/04/11 16:58:39 INFO BlockManager: BlockManager stopped
16/04/11 16:58:39 INFO BlockManagerMaster: BlockManagerMaster stopped
16/04/11 16:58:39 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!
16/04/11 16:58:39 INFO SparkContext: Successfully stopped SparkContext
16/04/11 16:58:39 INFO ShutdownHookManager: Shutdown hook called
16/04/11 16:58:39 INFO ShutdownHookManager: Deleting directory /private/var/fold

Как я могу решить эту проблему? Я точно следую команде из буклета: https://h2o-release.s3.amazonaws.com/h2o/rel-turan/3/docs-website/h2o-docs/booklets/SparklingWaterVignette.pdf


person pierre_comalada    schedule 12.04.2016    source источник


Ответы (1)


На самом деле это критическая ошибка, о которой мы знаем в команде Sparkling Water, и она исправлена ​​в новом выпуске с другими исправлениями. Ошибка уже исправлена ​​(https://0xdata.atlassian.net/browse/SW-107), и очень скоро должен выйти новый релиз.

Я буду держать вас в курсе и сообщать, когда выйдет новая версия.

ИЗМЕНЕНО 29 апреля 2016 г.

Вышла новая версия с исправлением.

Для Spark 1.6 - http://h2o-release.s3.amazonaws.com/sparkling-water/rel-1.6/3/index.html

Для Spark 1.5 - http://h2o-release.s3.amazonaws.com/sparkling-water/rel-1.5/14/index.html

Вам больше не нужно вызывать -packages, чтобы добавить ядро ​​газированной воды. Файл яйца pySparkling уже содержит все необходимые ему классы Java / Scala. Итак, все, что вам нужно сделать, это просто установить файл яйца с помощью параметра py-files, и все должно быть.

person Jakub Háva    schedule 15.04.2016