Я пытаюсь перенести запрос в pyspark, и мне нужно объединить в нем несколько таблиц. Все рассматриваемые таблицы находятся в Redshift, и я использую соединитель jdbc, чтобы общаться с ними.
Моя проблема в том, как сделать эти соединения оптимальным образом, не читая слишком много данных (например, загружая таблицу и присоединяясь по ключу) и не просто явно используя:
spark.sql("""join table1 on x=y join table2 on y=z""")
Есть ли способ отправить запросы в Redshift, но по-прежнему использовать Spark df API для написания логики, а также использовать df из контекста искры, не сохраняя их в Redshift только для объединений?