Какова алгоритмическая сложность и / или потребление памяти для операций с фреймами данных в Spark? Я не могу найти никакой информации в документации.
Одним из полезных примеров может быть ответ на объем памяти / диска при расширении фрейма данных другим столбцом (withColumn()
): (в Python с автоматической сборкой мусора) лучше сделать table = table.withColumn(…)
или extended_table = table.withColumn()
занимает примерно столько же памяти?
PS: предположим, что обе таблицы сохраняются с persist()
.