Контроль затрат в Redshift Spectrum при сканировании внешних таблиц (данные S3)

Афина имеет значение по умолчанию ограничения на услуги, которые могут помочь ~ ограничить расходы на случайные "неконтролируемые" запросы в большом озере данных в S3. Они невелики (по времени, а не по объему отсканированных данных), но все же полезны.

Что насчет Redshift Spectrum? Какие механизмы, которые он предоставляет, можно легко использовать для ограничения стоимости или снижения риска «случайного» сканирования слишком большого количества данных в одном неконтролируемом запросе к S3? Как лучше всего решить эту проблему?

amazon-redshift amazon-athena amazon-redshift-spectrum

Amelio Vazquez-Reina 05.08.2018 источник

comment

Значит, если время запроса в Афине истекает, с вас вообще не взимается плата? Это интересно знать! - Alessandro Cosentino 06.08.2018

Ответы (1)

arrow_upward
5
arrow_downward

Amazon Redshift позволяет применять детальный контроль над выполнением запросов Spectrum с помощью Правила мониторинга запросов WLM.

Доступны 2 показателя Spectrum: Spectrum scan size (количество мегабайт, просканированных запросом) и Spectrum scan row count (количество строк, просканированных запросом).

Вы также можете использовать Query execution time для обеспечения максимальной продолжительности, но это будет применяться ко всем типам запросов, а не только к Spectrum.

Обратите внимание, что это выборочные показатели. Запросы не прерываются точно в тот момент, когда они превышают правило, они прерываются в следующем интервале выборки.

Если вы уже выполняли запросы Spectrum в своем кластере, вы можете начать работу с QMR, используя наш скрипт _ 4_ для создания правил-кандидатов. Сгенерированные правила основаны на 99-м процентилях для каждой метрики.

Joe Harris 06.08.2018

comment

Спасибо @joe. Это полезно. Что насчет таких вещей, как скорость выполнения запросов (например, # / час)? или общее количество запросов, выполняемых одновременно? Я не вижу их в списке показателей / правил. Есть идеи по ним? - Amelio Vazquez-Reina; 06.08.2018

comment

Параллельные запросы в Redshift регулируются конфигурацией WLM кластера. Каждая очередь WLM позволяет выполнять определенное количество одновременных запросов. Это относится к запросам Spectrum так же, как и к обычным запросам, поскольку выполнение запросов Spectrum совместно используется кластером Redshift и слоем Spectrum. - Joe Harris; 07.08.2018

comment

Количество запросов в час необходимо рассчитывать извне. - Joe Harris; 07.08.2018

Контроль затрат в Redshift Spectrum при сканировании внешних таблиц (данные S3)

Ответы (1)

Вопросы по теме