Во-первых, позвольте мне начать с того, что я новичок в Spark-SQL
.
Я пытаюсь понять различные типы и стратегии соединения в Spark-Sql, я хочу знать о подходе к приближению размеров таблиц (которые участвуют в объединении, агрегации и т. Д.), Чтобы оценить / настроить ожидаемое время выполнения, понимая, что на самом деле происходит под капотом, чтобы помочь мне выбрать стратегию соединения, которая лучше всего подходит для этого сценария (в Spark-SQL с помощью подсказок и т. д.).
Конечно, количество строк в таблице является хорошей отправной точкой, но я хочу иметь возможность оценить размеры с точки зрения _2 _ / _ 3 _ / _ 4 _ / _ 5 _ / _ 6_, чтобы знать, какая таблица не поместится в памяти и т. Д. ), что, в свою очередь, позволило бы мне писать более эффективные SQL-запросы, выбирая тип / стратегию соединения и т. д., который лучше всего подходит для этого сценария.
Примечание: у меня нет доступа к PySpark. Мы запрашиваем таблицы Glue через Sql Workbench, подключенные к каталогу Glue с помощью драйвера Hive jdbc.
Любая помощь приветствуется.
Спасибо.