Мой проект включает в себя множество операций между массивами numpy и матрицами numpy, которые в настоящее время выполняются в UDF. Как вы думаете, если бы мы использовали внутренние структуры в PySpark, у нас было бы повышение производительности? (матрица - ›фрейм данных, массив numpy -› плотные векторы) Спасибо!
Производительность PySpark DataFrame / Vectors против Numpy Array
Ответы (1)
UDF обычно медленнее, чем pyspark.sql.functions
, работающие с DataFrame API, вам обычно следует избегать их, насколько это возможно, из-за накладных расходов на десериализацию сериализации.
Функции Spark и производительность UDF?
person
Samir Vyas
schedule
09.09.2020
Да, но я имею в виду, есть ли какое-либо преимущество для использования в примере плотных векторов вместо массива numpy ВНУТРИ UDF? Потому что для меня невозможно избежать использования UDF
- person CHIRAQA; 09.09.2020
pandas_udf
? - person Steven   schedule 09.09.2020