У нас есть простой запрос к таблице/представлению размером примерно 5 ТБ. Мы выполняем ETL и, наконец, добавляем данные в основную таблицу, добавляя раздел.
Но поскольку данные, которые мы обрабатываем, огромны, запрос порождает более 4000 картографов и более 1000 редукторов. Запрос также выполняется более 40 минут.
Как я могу улучшить/уменьшить использование ресурсов?
Запрос:
insert overwrite table dss.prblm_mtrc partition (LOAD_DT) select *, '2019-01-02' as LOAD_DT from dss.v_prblm_mtrc_stg_etl