У меня на ведре s3 есть пара столов. Таблицы большие как по объему памяти, так и по количеству файлов, они хранятся в JSON (я знаю, неоптимально) и имеют много разделов.
Теперь я хочу включить AWS Glue Data Catalog и AWS Glue Crawlers, однако меня пугает цена сканеров, просматривающих все данные.
Схема не часто меняется, поэтому нет необходимости просматривать все файлы на S3.
Будут ли сканеры просматривать все файлы по умолчанию? Можно ли настроить более разумную стратегию выборки, которая бы просматривала только некоторые файлы, а не все?