Статьи по теме aws-glue-data-catalog

Вопросы по теме 'aws-glue-data-catalog'

AWS Glue Catalog не может обнаружить паркетные файлы, вместо этого создает корневой путь в виде единой таблицы.

У меня есть список из 500+ таблиц, хранящихся в AWS S3 в формате паркета. Структура следующая: aws-bucket/ └── parquet/ └── table1/t1.parquet └── table2/t2.parquet └── table3/t3.parquet └── table4/t4.parquet └──...

936 просмотров

02.10.2021

Должен ли я каждый раз запускать краулер Glue для получения последних данных?

У меня есть корзина S3 с именем Сотрудник. Каждые три часа я буду получать файл в корзине с прикрепленной к нему меткой времени. Я буду использовать задание Glue, чтобы переместить файл из S3 в Redshift с некоторыми преобразованиями. Мой входной...

1581 просмотров

amazon-web-services amazon-s3 aws-glue aws-glue-spark aws-glue-data-catalog

17.09.2021

Подсказка BROADCASTJOIN не работает в PySpark SQL

Я пытаюсь предоставить широковещательную подсказку для таблицы, которая меньше по размеру, но физический план все еще показывает мне SortMergeJoin. spark.sql('select /*+ BROADCAST(pratik_test_temp.crosswalk2016) */ * from...

375 просмотров

apache-spark pyspark apache-spark-sql aws-glue-data-catalog

17.10.2021

Склеивание не удается из-за ошибки тайм-аута подключения

У меня есть задание Glue ETL, которое считывает данные из каталога и записывает их в s3. Как только это будет сделано, необходимо запустить поисковый робот для обновления данных в Athena. Итак, я использую метод glue_client.start_crawler (Name =...

868 просмотров

amazon-web-services aws-glue aws-glue-data-catalog

14.09.2021

Почему не обновляются целевые данные после изменения скрипта задания склеивания?

Я определил glue job для преобразования данных из исходного ведра s3 в целевое ведро s3. В работе я использую сценарий Python . Он отлично работает и загружает много данных в целевую корзину. Но позже я изменил схему, обновив скрипт Python,...

112 просмотров

amazon-web-services aws-glue aws-glue-data-catalog

13.05.2022

Может клеить Crawler читать xml zip файл

У меня есть zip-файл в формате xml. Могу ли я создать схему с помощью поискового робота. Я пытался использовать XML-классификатор искателя и добавил классификатор в искатель для создания таблицы. так как его zip-файл. не умеет читать. Может ли...

48 просмотров

amazon-web-services aws-glue aws-glue-data-catalog

06.06.2022

как создать несколько таблиц из нескольких папок с одним путем к местоположению, и Афина также должна работать с ним с помощью склеивающего робота

Я пробовал это, не добиваясь требуемых результатов - у меня есть несколько файлов CSV в папке ведра s3, но когда он создает для него несколько таблиц, Афина возвращает нулевые результаты, поэтому я создал другую папку для каждого файла, и все работает...

666 просмотров

amazon-web-services amazon-s3 aws-glue amazon-athena aws-glue-data-catalog

17.06.2022

Каталог данных AWS Glue, временные таблицы и Apache Spark createOrReplaceTempView

Согласно документации каталога данных AWS Glue https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html Временные таблицы не поддерживаются. Мне непонятно, или в Temporary tables я могу также рассмотреть...

1462 просмотров

amazon-web-services apache-spark amazon-emr aws-glue aws-glue-data-catalog

03.07.2022

Ошибка при создании таблицы с именем столбца, содержащим точку (.) В Amazon Athena, даже после экранирования точки с помощью обратных кавычек (`)

Согласно https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html , Специальные символы Специальные символы, кроме подчеркивания (_), не поддерживаются. Дополнительные сведения см. В документации DDL Apache Hive...

796 просмотров

amazon-web-services amazon-s3 aws-glue-spark amazon-athena aws-glue-data-catalog

13.07.2022

Конечная точка разработки AWS Glue не работает должным образом

Я пытаюсь использовать конечную точку разработки для интерактивного запуска и редактирования сценариев ETL, но, похоже, возникают некоторые проблемы в конечной точке разработки сразу после ее создания, поскольку я получаю ошибки в scala / python REPL,...

358 просмотров

amazon-web-services aws-glue aws-glue-spark aws-glue-data-catalog aws-lake-formation

18.07.2022

Как получить полные результаты запроса к CSV-файлу с помощью AWS / Athena из интерфейса командной строки?

Мне нужно загрузить полный контент таблицы, который у меня есть на моем AWS / Glue / Catalog, с помощью AWS / Athena. В настоящий момент я запускаю select * from my_table из панели инструментов и сохраняю результат локально как CSV всегда из панели...

1356 просмотров

amazon-web-services amazon-athena aws-glue-data-catalog

25.07.2022

AWS Glue - выравнивает глубоко вложенный JSON

Я хотел бы знать, есть ли способ сгладить глубоко вложенный JSON с помощью задания Glue ETL? В нем есть вложенные массивы. Я попытался запустить искатель Glue на JSON, который вернул каталог всего с одним полем PerPlayer с типом данных struct....

762 просмотров

pyspark aws-glue aws-glue-spark amazon-athena aws-glue-data-catalog

30.09.2022

Добавить нагрузку в AWS Glue

Мне нужно выполнить добавление нагрузки в ведро S3. Каждый день новый файл .gz выгружается в расположение S3, и сканер glue считывает данные и обновляет их в каталоге данных. Задание Scala AWS Glue запускается и фильтрует данные только за...

1456 просмотров

apache-spark aws-glue aws-glue-data-catalog

26.11.2022

При создании клеевой таблицы с использованием terraform я получаю следующую ошибку at 'table.storageDescriptor.columns.5.member.type' failed to satisfy constraint: Member must satisfy regular expression pattern:...

3133 просмотров

terraform regex terraform-provider-aws aws-glue-data-catalog

28.07.2023

Интеллектуальный отбор проб с помощью AWS Glue Crawlers

У меня на ведре s3 есть пара столов. Таблицы большие как по объему памяти, так и по количеству файлов, они хранятся в JSON (я знаю, неоптимально) и имеют много разделов. Теперь я хочу включить AWS Glue Data Catalog и AWS Glue Crawlers, однако меня...

350 просмотров

amazon-web-services amazon-s3 aws-glue aws-glue-data-catalog

25.10.2022

Динамический фрейм AWS Glue - без заголовков столбцов, если нет данных

Я прочитал таблицу каталога Glue, преобразовал ее в фрейм данных и распечатал схему, используя приведенную ниже (искру с Python) dyf = glueContext.create_dynamic_frame.from_catalog(database='database_name',...

868 просмотров

amazon-web-services pyspark aws-glue aws-glue-data-catalog

21.06.2023

Спецификации выбора разрешения динамического кадра, приведение даты

Я пишу код Glue и использую динамический выбор разрешения Api фрейма, спецификации. Я пытаюсь выполнить приведение источника, передавая приведение, когда динамический фрейм создается из каталога. Я успешно реализовал приведение с помощью...

646 просмотров

amazon-web-services aws-glue aws-glue-data-catalog

01.02.2023

Создать искру базы данных sql

Я использую spark 2.4.4 с каталогом клея AWS. В моей искровой работе мне нужно создать базу данных в клее, если она не существует. Для этого я использую следующий оператор в spark sql. spark.sql("CREATE DATABASE IF NOT EXISTS...

248 просмотров

apache-spark apache-spark-sql aws-glue hive aws-glue-data-catalog

07.01.2023

Может ли каталог AWS Glue указывать на расположение данных в Azure ADLS?

Мы пытаемся настроить AWS Databricks Runtime для использования каталога данных AWS Glue в качестве хранилища метаданных. В этой среде Azure ADLS является одной из исходных систем. В этом случае может ли каталог AWS Glue указывать на расположение...

26 просмотров

azure-storage azure-databricks aws-databricks aws-glue-data-catalog

12.01.2023

AWS Glue Job — загрузить файл паркета из S3 в столбец RDS jsonb

У меня есть файл паркета в S3, в котором есть несколько столбцов, и один из них - json. У меня такой же формат в базе данных RDS с одним столбцом, как jsonb. Я хотел бы скопировать файл паркета в RDS, но как преобразовать файл в тип данных jsonb,...

128 просмотров

python amazon-web-services json aws-glue aws-glue-data-catalog

18.02.2023