Мы пытаемся экспортировать данные нескольких огромных таблиц Vertica в файлы на AWS S3. S3Export с разделом (BEST / или любой другой столбец) успешно экспортировал файлы. Хотя это не очень быстро, учитывая объем данных, мы чувствовали себя хорошо с производительностью. Однако мы поняли, что в файлах были проблемы с качеством данных, особенно со столбцами «дата». Мы заметили много записей с неправильными значениями для столбцов даты.
Опубликуйте некоторые самостоятельные исследования, обнаружив, что «PARTITION BEST» или «Разделение по столбцам» не рекомендуется использовать в UDT, которые не являются потокобезопасными. «РАЗДЕЛЕНИЕ УЗЛОВ» — это то, что нужно использовать. «УЗЛЫ РАЗДЕЛОВ», кажется, точно экспортируют все данные, однако он генерирует только один файл на узел и занимает гораздо больше времени. Это также привело к файлам огромного размера.
Поскольку у нас есть дополнительные требования к обработке (КОПИРОВАНИЕ в базу данных Redshift) этих экспортированных файлов, нам нужно, чтобы они были намного меньше.
Любые предложения о том, можем ли мы заставить S3Export предоставлять точные данные в нескольких файлах меньшего размера?