Vertica S3Export — Проблемы с качеством данных с предложением «РАЗДЕЛ»

Мы пытаемся экспортировать данные нескольких огромных таблиц Vertica в файлы на AWS S3. S3Export с разделом (BEST / или любой другой столбец) успешно экспортировал файлы. Хотя это не очень быстро, учитывая объем данных, мы чувствовали себя хорошо с производительностью. Однако мы поняли, что в файлах были проблемы с качеством данных, особенно со столбцами «дата». Мы заметили много записей с неправильными значениями для столбцов даты.

Опубликуйте некоторые самостоятельные исследования, обнаружив, что «PARTITION BEST» или «Разделение по столбцам» не рекомендуется использовать в UDT, которые не являются потокобезопасными. «РАЗДЕЛЕНИЕ УЗЛОВ» — это то, что нужно использовать. «УЗЛЫ РАЗДЕЛОВ», кажется, точно экспортируют все данные, однако он генерирует только один файл на узел и занимает гораздо больше времени. Это также привело к файлам огромного размера.

Поскольку у нас есть дополнительные требования к обработке (КОПИРОВАНИЕ в базу данных Redshift) этих экспортированных файлов, нам нужно, чтобы они были намного меньше.

Любые предложения о том, можем ли мы заставить S3Export предоставлять точные данные в нескольких файлах меньшего размера?


person Valli    schedule 03.03.2020    source источник


Ответы (1)


Ответ администратора форума Vertica -

Исправление есть в Vertica 9.1.1-1 (Выпуск от 27.08.2018). ВЕР-63693 - С3. До этого выпуска S3Export не был потокобезопасным, если данные содержали значения времени/даты. Это означает, что S3Export не следует использовать с PARTITION BEST при экспорте значений времени/даты до этого исправления. См.: https://www.vertica.com/docs/ReleaseNotes/9.1.x/Vertica_9.1.x_Release_Notes.htm

person Valli    schedule 11.03.2020