Я получаю сообщение об ошибке несоответствия схемы при запросе данных паркета от Athena.
Ошибка:
HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split s3://datalake/googleanalytics/version=0/eventDate=2017-06-11/part-00001-9c9312f7-f9a5-47c3-987e-9348b78aaebc-c000.snappy.parquet (offset=0, length=48653579): Schema mismatch, metastore schema for row column totals has 13 fields but parquet schema has 12 fields
В AWS Glue Crawler я попытался включить Обновлять все новые и существующие разделы с помощью метаданных из таблицы, что, как я думал, решит эту проблему, однако я все еще получаю указанную выше ошибку. Я сделал это из-за аналогичного вопроса: Как создать таблицу AWS Glue, в которой разделы имеют разные столбцы? ('HIVE_PARTITION_SCHEMA_MISMATCH')
Схема таблицы для итогового столбца:
struct<visits:bigint,hits:bigint,pageviews:bigint,timeOnSite:bigint,bounces:bigint,transactions:bigint,transactionRevenue:bigint,newVisits:bigint,screenviews:bigint,uniqueScreenviews:bigint,timeOnScreen:bigint,totalTransactionRevenue:bigint,sessionQualityDim:bigint>
В файле паркета для раздела eventDate = 2017-06-11 отсутствует последнее поле "sessionQualityDim".
PARTITIONED BY ('eventdate' string)
- person AndrewSC   schedule 21.05.2019DataFrame.printSchema()
для отображения схемы: - person AndrewSC   schedule 21.05.2019|-- totals: struct (nullable = true) |-- visits: long (nullable = true) |-- hits: long (nullable = true) |-- pageviews: long (nullable = true) |-- timeOnSite: long (nullable = true) |-- bounces: long (nullable = true) |-- transactions: long (nullable = true) |-- transactionRevenue: long (nullable = true) |-- newVisits: long (nullable = true) |-- screenviews: long (nullable = true) |-- uniqueScreenviews: long (nullable = true) |-- timeOnScreen: long (nullable = true) |-- totalTransactionRevenue: long (nullable = true) |-- sessionQualityDim: long (nullable = true)
- person AndrewSC   schedule 21.05.2019sessionQualityDim
отсутствует в схеме 2017 года. Схема 2017 - это подмножество схемы таблицы. Я ожидал, что параметр Обновить все новые и существующие разделы метаданными из таблицы сработает. - person AndrewSC   schedule 21.05.2019