Я использую Confluent KafkaAvroDerserializer для десериализации объектов Avro, отправленных через Kafka. Я хочу записать полученные данные в файл Parquet. Я хочу иметь возможность добавлять данные к тому же паркету и создавать паркет с разделами.
Мне удалось создать паркет с помощью AvroParquetWriter, но я не нашел, как добавить разделы или добавить в тот же файл:
До использования Avro я использовал spark для написания паркета. С помощью spark запись паркета с разделами и использование режима добавления было тривиальным. Должен ли я пытаться создавать Rdds из моих объектов Avro и использовать spark для создания паркета?