Производительность PySpark DataFrame / Vectors против Numpy Array

Мой проект включает в себя множество операций между массивами numpy и матрицами numpy, которые в настоящее время выполняются в UDF. Как вы думаете, если бы мы использовали внутренние структуры в PySpark, у нас было бы повышение производительности? (матрица - ›фрейм данных, массив numpy -› плотные векторы) Спасибо!

CHIRAQA 09.09.2020 источник

comment

Вы рассматривали возможность использования pandas_udf? - Steven 09.09.2020

Ответы (1)

arrow_upward
1
arrow_downward

UDF обычно медленнее, чем pyspark.sql.functions, работающие с DataFrame API, вам обычно следует избегать их, насколько это возможно, из-за накладных расходов на десериализацию сериализации.

Функции Spark и производительность UDF?

Samir Vyas 09.09.2020

comment

Да, но я имею в виду, есть ли какое-либо преимущество для использования в примере плотных векторов вместо массива numpy ВНУТРИ UDF? Потому что для меня невозможно избежать использования UDF - CHIRAQA; 09.09.2020

Производительность PySpark DataFrame / Vectors против Numpy Array

Ответы (1)

Вопросы по теме