Производительность PySpark DataFrame / Vectors против Numpy Array

Мой проект включает в себя множество операций между массивами numpy и матрицами numpy, которые в настоящее время выполняются в UDF. Как вы думаете, если бы мы использовали внутренние структуры в PySpark, у нас было бы повышение производительности? (матрица - ›фрейм данных, массив numpy -› плотные векторы) Спасибо!


person CHIRAQA    schedule 09.09.2020    source источник
comment
Вы рассматривали возможность использования pandas_udf?   -  person Steven    schedule 09.09.2020


Ответы (1)


UDF обычно медленнее, чем pyspark.sql.functions, работающие с DataFrame API, вам обычно следует избегать их, насколько это возможно, из-за накладных расходов на десериализацию сериализации.

Функции Spark и производительность UDF?

person Samir Vyas    schedule 09.09.2020
comment
Да, но я имею в виду, есть ли какое-либо преимущество для использования в примере плотных векторов вместо массива numpy ВНУТРИ UDF? Потому что для меня невозможно избежать использования UDF - person CHIRAQA; 09.09.2020