Я использую spark 2.0 и zeppelin-0.6.1-bin-all на сервере Linux. Записная книжка искры по умолчанию работает нормально, но когда я пытаюсь создать и запустить новую записную книжку в pyspark с помощью sqlContext, я получаю сообщение об ошибке «py4j.Py4JException: Method createDataFrame ([class java.util.ArrayList, class java.util.ArrayList, null]) не существует "
Я пробовал запустить простой код,
%pyspark
wordsDF = sqlContext.createDataFrame([('cat',), ('elephant',), ('rat',), ('rat',), ('cat', )], ['word'])
wordsDF.show()
print type(wordsDF)
wordsDF.printSchema()
Я получаю ошибку,
Traceback (most recent call last): File "/tmp/zeppelin_pyspark-7635635698598314374.py", line 266, in raise Exception(traceback.format_exc()) Exception: Traceback (most recent call last): File "/tmp/zeppelin_pyspark-7635635698598314374.py", line 259, in exec(code) File "", line 1, in File "/spark/spark-2.0.0-bin-hadoop2.7/python/pyspark/sql/context.py", line 299, in createDataFrame return self.sparkSession.createDataFrame(data, schema, samplingRatio) File "/spark/spark-2.0.0-bin-hadoop2.7/python/lib/py4j-0.10.1-src.zip/py4j/java_gateway.py", line 933, in __call__ answer, self.gateway_client, self.target_id, self.name) File "/spark/spark-2.0.0-bin-hadoop2.7/python/pyspark/sql/utils.py", line 63, in deco return f(*a, **kw) File "/spark/spark-2.0.0-bin-hadoop2.7/python/lib/py4j-0.10.1-src.zip/py4j/protocol.py", line 316, in get_return_value format(target_id, ".", name, value)) Py4JError: An error occurred while calling o48.createDataFrame. Trace: py4j.Py4JException: Method createDataFrame([class java.util.ArrayList, class java.util.ArrayList, null]) does not exist at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:318) at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:326) at py4j.Gateway.invoke(Gateway.java:272) at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:128) at py4j.commands.CallCommand.execute(CallCommand.java:79) at py4j.GatewayConnection.run(GatewayConnection.java:211) at java.lang.Thread.run(Thread.java:745)
Когда я пробую тот же код с «sqlContext = SQLContext (sc)», он работает нормально.
Я попытался установить конфигурацию интерпретатора «zeppelin.spark.useHiveContext false», но это не сработало.
Очевидно, я что-то упускаю, так как это такая простая операция. Пожалуйста, посоветуйте, нужно ли установить какую-либо другую конфигурацию или что мне не хватает.
Я тестировал тот же фрагмент кода с Zeppelin 0.6.0, и он работает нормально.