Вопросы по теме 'aws-glue-data-catalog'
AWS Glue Catalog не может обнаружить паркетные файлы, вместо этого создает корневой путь в виде единой таблицы.
У меня есть список из 500+ таблиц, хранящихся в AWS S3 в формате паркета. Структура следующая:
aws-bucket/
└── parquet/
└── table1/t1.parquet
└── table2/t2.parquet
└── table3/t3.parquet
└── table4/t4.parquet
└──...
936 просмотров
schedule
02.10.2021
Должен ли я каждый раз запускать краулер Glue для получения последних данных?
У меня есть корзина S3 с именем Сотрудник. Каждые три часа я буду получать файл в корзине с прикрепленной к нему меткой времени. Я буду использовать задание Glue, чтобы переместить файл из S3 в Redshift с некоторыми преобразованиями. Мой входной...
1581 просмотров
schedule
17.09.2021
Подсказка BROADCASTJOIN не работает в PySpark SQL
Я пытаюсь предоставить широковещательную подсказку для таблицы, которая меньше по размеру, но физический план все еще показывает мне SortMergeJoin.
spark.sql('select /*+ BROADCAST(pratik_test_temp.crosswalk2016) */ * from...
375 просмотров
schedule
17.10.2021
Склеивание не удается из-за ошибки тайм-аута подключения
У меня есть задание Glue ETL, которое считывает данные из каталога и записывает их в s3. Как только это будет сделано, необходимо запустить поисковый робот для обновления данных в Athena.
Итак, я использую метод glue_client.start_crawler (Name =...
868 просмотров
schedule
14.09.2021
Почему не обновляются целевые данные после изменения скрипта задания склеивания?
Я определил glue job для преобразования данных из исходного ведра s3 в целевое ведро s3. В работе я использую сценарий Python . Он отлично работает и загружает много данных в целевую корзину. Но позже я изменил схему, обновив скрипт Python,...
112 просмотров
schedule
13.05.2022
Может клеить Crawler читать xml zip файл
У меня есть zip-файл в формате xml. Могу ли я создать схему с помощью поискового робота. Я пытался использовать XML-классификатор искателя и добавил классификатор в искатель для создания таблицы. так как его zip-файл. не умеет читать. Может ли...
48 просмотров
schedule
06.06.2022
как создать несколько таблиц из нескольких папок с одним путем к местоположению, и Афина также должна работать с ним с помощью склеивающего робота
Я пробовал это, не добиваясь требуемых результатов - у меня есть несколько файлов CSV в папке ведра s3, но когда он создает для него несколько таблиц, Афина возвращает нулевые результаты, поэтому я создал другую папку для каждого файла, и все работает...
666 просмотров
schedule
17.06.2022
Каталог данных AWS Glue, временные таблицы и Apache Spark createOrReplaceTempView
Согласно документации каталога данных AWS Glue https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html
Временные таблицы не поддерживаются.
Мне непонятно, или в Temporary tables я могу также рассмотреть...
1462 просмотров
schedule
03.07.2022
Ошибка при создании таблицы с именем столбца, содержащим точку (.) В Amazon Athena, даже после экранирования точки с помощью обратных кавычек (`)
Согласно https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html ,
Специальные символы
Специальные символы, кроме подчеркивания (_), не поддерживаются. Дополнительные сведения см. В документации DDL Apache Hive...
796 просмотров
schedule
13.07.2022
Конечная точка разработки AWS Glue не работает должным образом
Я пытаюсь использовать конечную точку разработки для интерактивного запуска и редактирования сценариев ETL, но, похоже, возникают некоторые проблемы в конечной точке разработки сразу после ее создания, поскольку я получаю ошибки в scala / python REPL,...
358 просмотров
schedule
18.07.2022
Как получить полные результаты запроса к CSV-файлу с помощью AWS / Athena из интерфейса командной строки?
Мне нужно загрузить полный контент таблицы, который у меня есть на моем AWS / Glue / Catalog, с помощью AWS / Athena. В настоящий момент я запускаю select * from my_table из панели инструментов и сохраняю результат локально как CSV всегда из панели...
1356 просмотров
schedule
25.07.2022
AWS Glue - выравнивает глубоко вложенный JSON
Я хотел бы знать, есть ли способ сгладить глубоко вложенный JSON с помощью задания Glue ETL? В нем есть вложенные массивы. Я попытался запустить искатель Glue на JSON, который вернул каталог всего с одним полем PerPlayer с типом данных struct....
762 просмотров
schedule
30.09.2022
Добавить нагрузку в AWS Glue
Мне нужно выполнить добавление нагрузки в ведро S3.
Каждый день новый файл .gz выгружается в расположение S3, и сканер glue считывает данные и обновляет их в каталоге данных.
Задание Scala AWS Glue запускается и фильтрует данные только за...
1456 просмотров
schedule
26.11.2022
При создании клеевой таблицы с использованием terraform я получаю следующую ошибку
at 'table.storageDescriptor.columns.5.member.type' failed to satisfy constraint: Member must satisfy regular expression pattern:...
3133 просмотров
schedule
28.07.2023
Интеллектуальный отбор проб с помощью AWS Glue Crawlers
У меня на ведре s3 есть пара столов. Таблицы большие как по объему памяти, так и по количеству файлов, они хранятся в JSON (я знаю, неоптимально) и имеют много разделов.
Теперь я хочу включить AWS Glue Data Catalog и AWS Glue Crawlers, однако меня...
350 просмотров
schedule
25.10.2022
Динамический фрейм AWS Glue - без заголовков столбцов, если нет данных
Я прочитал таблицу каталога Glue, преобразовал ее в фрейм данных и распечатал схему, используя приведенную ниже (искру с Python)
dyf = glueContext.create_dynamic_frame.from_catalog(database='database_name',...
868 просмотров
schedule
21.06.2023
Спецификации выбора разрешения динамического кадра, приведение даты
Я пишу код Glue и использую динамический выбор разрешения Api фрейма, спецификации. Я пытаюсь выполнить приведение источника, передавая приведение, когда динамический фрейм создается из каталога. Я успешно реализовал приведение с помощью...
646 просмотров
schedule
01.02.2023
Создать искру базы данных sql
Я использую spark 2.4.4 с каталогом клея AWS.
В моей искровой работе мне нужно создать базу данных в клее, если она не существует. Для этого я использую следующий оператор в spark sql.
spark.sql("CREATE DATABASE IF NOT EXISTS...
248 просмотров
schedule
07.01.2023
Может ли каталог AWS Glue указывать на расположение данных в Azure ADLS?
Мы пытаемся настроить AWS Databricks Runtime для использования каталога данных AWS Glue в качестве хранилища метаданных. В этой среде Azure ADLS является одной из исходных систем. В этом случае может ли каталог AWS Glue указывать на расположение...
26 просмотров
schedule
12.01.2023
AWS Glue Job — загрузить файл паркета из S3 в столбец RDS jsonb
У меня есть файл паркета в S3, в котором есть несколько столбцов, и один из них - json. У меня такой же формат в базе данных RDS с одним столбцом, как jsonb.
Я хотел бы скопировать файл паркета в RDS, но как преобразовать файл в тип данных jsonb,...
128 просмотров
schedule
18.02.2023