AWS Athena разделяет данные

У меня есть файл tsv в s3, и я оцениваю отсканированный размер запроса Athena с разбиением и без него. Запрос выполняется нормально без каких-либо разделов и сканирования полных данных. Когда я пытаюсь разделить, я не могу загрузить раздел. Документы не очень помогли понять, как загрузить раздел для данных tsv.

Пример данных S3:

column1 column2 US  column4
column1 column2 US  column4
column1 column2 DE  column4
column1 column2 DE  column4
column1 column2 US  column4
column1 column2 US  column4
column1 column2 IT  column4
column1 column2 IT  column4

Я хочу разделить по 3-му столбцу, так как это тот, по которому я буду часто запрашивать. Выполнение MSCK REPAIR TABLE, по-видимому, не загрузило разделы. Как этого добиться?


person doctore    schedule 06.07.2018    source источник
comment
Хорошая статья, объясняющая преимущества разделения с помощью Amazon Athena: Анализ данных в S3 с помощью Amazon Athena | Блог AWS по большим данным   -  person John Rotenstein    schedule 07.07.2018


Ответы (1)


В Athena разделы нужно разделить на папки S3. Разделение по произвольным столбцам данных не поддерживается.

Таким образом, чтобы использовать разделы, вы можете либо установить необходимый столбец как пару имя / значение в качестве имени папки, либо явно сопоставить папки с разделами.

Оба сценария объясняются здесь:

https://docs.aws.amazon.com/athena/latest/ug/partitions.html

person jens walter    schedule 06.07.2018