У меня есть требование читать сериализованные сообщения JSON из темы Kafka, преобразовывать их в Parquet и сохранять в S3.
Фон
Официальный S3-Sink-Connector поддерживает формат вывода Parquet, но:
Для этого соединителя необходимо использовать AvroConverter, ProtobufConverter или JsonSchemaConverter с ParquetFormat. Попытка использовать JsonConverter (со схемами или без них) приводит к NullPointerException и StackOverflowException.
Постановка задачи
Итак, я ищу способ прочитать сообщения из темы Kafka, которые изначально были написаны в формате JSON, каким-то образом преобразовать их в формат схемы JSON, а затем подключить их к разъему S3, который будет писать в S3 в формате Parquet.
Или в качестве альтернативы, я также открыт для альтернативных решений (-которые не требуют написания кода JAVA-) с учетом основного требования (взять сообщение Kafka, поместить его в S3 как паркетные файлы). Спасибо!
PS: изменение способа первоначального написания этих сообщений Kafka (например, использование Сериализация схемы JSON с Обнаружение схемы), к сожалению, в настоящее время мне это не подходит.