В настоящее время тестируется кластер, и при использовании "CREATE TABLE AS"
результирующая управляемая таблица оказывается одним файлом размером ~ 1,2 ГБ, в то время как базовый файл, из которого создается запрос, содержит множество небольших файлов. Часть SELECT выполняется быстро, но тогда в результате работают 2 редуктора для создания одного файла, который занимает 75% времени выполнения.
Дополнительное тестирование:
1) Если используется "CREATE EXTERNAL TABLE AS"
, запрос выполняется очень быстро, и этап слияния файлов не требуется.
2) Кроме того, слияние не происходит с версией HDP 3.0.1.