Вопросы по теме 'aws-glue-data-catalog'

AWS Glue Catalog не может обнаружить паркетные файлы, вместо этого создает корневой путь в виде единой таблицы.
У меня есть список из 500+ таблиц, хранящихся в AWS S3 в формате паркета. Структура следующая: aws-bucket/ └── parquet/ └── table1/t1.parquet └── table2/t2.parquet └── table3/t3.parquet └── table4/t4.parquet └──...
936 просмотров

Должен ли я каждый раз запускать краулер Glue для получения последних данных?
У меня есть корзина S3 с именем Сотрудник. Каждые три часа я буду получать файл в корзине с прикрепленной к нему меткой времени. Я буду использовать задание Glue, чтобы переместить файл из S3 в Redshift с некоторыми преобразованиями. Мой входной...
1581 просмотров

Подсказка BROADCASTJOIN не работает в PySpark SQL
Я пытаюсь предоставить широковещательную подсказку для таблицы, которая меньше по размеру, но физический план все еще показывает мне SortMergeJoin. spark.sql('select /*+ BROADCAST(pratik_test_temp.crosswalk2016) */ * from...
375 просмотров

Склеивание не удается из-за ошибки тайм-аута подключения
У меня есть задание Glue ETL, которое считывает данные из каталога и записывает их в s3. Как только это будет сделано, необходимо запустить поисковый робот для обновления данных в Athena. Итак, я использую метод glue_client.start_crawler (Name =...
868 просмотров

Почему не обновляются целевые данные после изменения скрипта задания склеивания?
Я определил glue job для преобразования данных из исходного ведра s3 в целевое ведро s3. В работе я использую сценарий Python . Он отлично работает и загружает много данных в целевую корзину. Но позже я изменил схему, обновив скрипт Python,...
112 просмотров

Может клеить Crawler читать xml zip файл
У меня есть zip-файл в формате xml. Могу ли я создать схему с помощью поискового робота. Я пытался использовать XML-классификатор искателя и добавил классификатор в искатель для создания таблицы. так как его zip-файл. не умеет читать. Может ли...
48 просмотров

как создать несколько таблиц из нескольких папок с одним путем к местоположению, и Афина также должна работать с ним с помощью склеивающего робота
Я пробовал это, не добиваясь требуемых результатов - у меня есть несколько файлов CSV в папке ведра s3, но когда он создает для него несколько таблиц, Афина возвращает нулевые результаты, поэтому я создал другую папку для каждого файла, и все работает...
666 просмотров

Каталог данных AWS Glue, временные таблицы и Apache Spark createOrReplaceTempView
Согласно документации каталога данных AWS Glue https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html Временные таблицы не поддерживаются. Мне непонятно, или в Temporary tables я могу также рассмотреть...
1462 просмотров

Ошибка при создании таблицы с именем столбца, содержащим точку (.) В Amazon Athena, даже после экранирования точки с помощью обратных кавычек (`)
Согласно https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html , Специальные символы Специальные символы, кроме подчеркивания (_), не поддерживаются. Дополнительные сведения см. В документации DDL Apache Hive...
796 просмотров

Конечная точка разработки AWS Glue не работает должным образом
Я пытаюсь использовать конечную точку разработки для интерактивного запуска и редактирования сценариев ETL, но, похоже, возникают некоторые проблемы в конечной точке разработки сразу после ее создания, поскольку я получаю ошибки в scala / python REPL,...
358 просмотров

Как получить полные результаты запроса к CSV-файлу с помощью AWS / Athena из интерфейса командной строки?
Мне нужно загрузить полный контент таблицы, который у меня есть на моем AWS / Glue / Catalog, с помощью AWS / Athena. В настоящий момент я запускаю select * from my_table из панели инструментов и сохраняю результат локально как CSV всегда из панели...
1356 просмотров

AWS Glue - выравнивает глубоко вложенный JSON
Я хотел бы знать, есть ли способ сгладить глубоко вложенный JSON с помощью задания Glue ETL? В нем есть вложенные массивы. Я попытался запустить искатель Glue на JSON, который вернул каталог всего с одним полем PerPlayer с типом данных struct....
762 просмотров

Добавить нагрузку в AWS Glue
Мне нужно выполнить добавление нагрузки в ведро S3. Каждый день новый файл .gz выгружается в расположение S3, и сканер glue считывает данные и обновляет их в каталоге данных. Задание Scala AWS Glue запускается и фильтрует данные только за...
1456 просмотров

При создании клеевой таблицы с использованием terraform я получаю следующую ошибку at 'table.storageDescriptor.columns.5.member.type' failed to satisfy constraint: Member must satisfy regular expression pattern:...
3133 просмотров

Интеллектуальный отбор проб с помощью AWS Glue Crawlers
У меня на ведре s3 есть пара столов. Таблицы большие как по объему памяти, так и по количеству файлов, они хранятся в JSON (я знаю, неоптимально) и имеют много разделов. Теперь я хочу включить AWS Glue Data Catalog и AWS Glue Crawlers, однако меня...
350 просмотров

Динамический фрейм AWS Glue - без заголовков столбцов, если нет данных
Я прочитал таблицу каталога Glue, преобразовал ее в фрейм данных и распечатал схему, используя приведенную ниже (искру с Python) dyf = glueContext.create_dynamic_frame.from_catalog(database='database_name',...
868 просмотров

Спецификации выбора разрешения динамического кадра, приведение даты
Я пишу код Glue и использую динамический выбор разрешения Api фрейма, спецификации. Я пытаюсь выполнить приведение источника, передавая приведение, когда динамический фрейм создается из каталога. Я успешно реализовал приведение с помощью...
646 просмотров

Создать искру базы данных sql
Я использую spark 2.4.4 с каталогом клея AWS. В моей искровой работе мне нужно создать базу данных в клее, если она не существует. Для этого я использую следующий оператор в spark sql. spark.sql("CREATE DATABASE IF NOT EXISTS...
248 просмотров

Может ли каталог AWS Glue указывать на расположение данных в Azure ADLS?
Мы пытаемся настроить AWS Databricks Runtime для использования каталога данных AWS Glue в качестве хранилища метаданных. В этой среде Azure ADLS является одной из исходных систем. В этом случае может ли каталог AWS Glue указывать на расположение...
26 просмотров

AWS Glue Job — загрузить файл паркета из S3 в столбец RDS jsonb
У меня есть файл паркета в S3, в котором есть несколько столбцов, и один из них - json. У меня такой же формат в базе данных RDS с одним столбцом, как jsonb. Я хотел бы скопировать файл паркета в RDS, но как преобразовать файл в тип данных jsonb,...
128 просмотров