Контроль затрат в Redshift Spectrum при сканировании внешних таблиц (данные S3)

Афина имеет значение по умолчанию ограничения на услуги, которые могут помочь ~ ограничить расходы на случайные "неконтролируемые" запросы в большом озере данных в S3. Они невелики (по времени, а не по объему отсканированных данных), но все же полезны.

Что насчет Redshift Spectrum? Какие механизмы, которые он предоставляет, можно легко использовать для ограничения стоимости или снижения риска «случайного» сканирования слишком большого количества данных в одном неконтролируемом запросе к S3? Как лучше всего решить эту проблему?


person Amelio Vazquez-Reina    schedule 05.08.2018    source источник
comment
Значит, если время запроса в Афине истекает, с вас вообще не взимается плата? Это интересно знать!   -  person Alessandro Cosentino    schedule 06.08.2018


Ответы (1)


Amazon Redshift позволяет применять детальный контроль над выполнением запросов Spectrum с помощью Правила мониторинга запросов WLM.

Доступны 2 показателя Spectrum: Spectrum scan size (количество мегабайт, просканированных запросом) и Spectrum scan row count (количество строк, просканированных запросом).

Вы также можете использовать Query execution time для обеспечения максимальной продолжительности, но это будет применяться ко всем типам запросов, а не только к Spectrum.

Обратите внимание, что это выборочные показатели. Запросы не прерываются точно в тот момент, когда они превышают правило, они прерываются в следующем интервале выборки.

Если вы уже выполняли запросы Spectrum в своем кластере, вы можете начать работу с QMR, используя наш скрипт _ 4_ для создания правил-кандидатов. Сгенерированные правила основаны на 99-м процентилях для каждой метрики.

person Joe Harris    schedule 06.08.2018
comment
Спасибо @joe. Это полезно. Что насчет таких вещей, как скорость выполнения запросов (например, # / час)? или общее количество запросов, выполняемых одновременно? Я не вижу их в списке показателей / правил. Есть идеи по ним? - person Amelio Vazquez-Reina; 06.08.2018
comment
Параллельные запросы в Redshift регулируются конфигурацией WLM кластера. Каждая очередь WLM позволяет выполнять определенное количество одновременных запросов. Это относится к запросам Spectrum так же, как и к обычным запросам, поскольку выполнение запросов Spectrum совместно используется кластером Redshift и слоем Spectrum. - person Joe Harris; 07.08.2018
comment
Количество запросов в час необходимо рассчитывать извне. - person Joe Harris; 07.08.2018