Статьи по теме aws-glue [python, amazon-web-services, aws-glue, jdbc, amazon-redshift]

Вопросы по теме 'aws-glue'

клей для соединения красного смещения: невозможно найти подходящую группу безопасности

Я пытаюсь настроить задание AWS Glue и подключиться к Redshift. Я получаю сообщение об ошибке, когда устанавливаю тип подключения Redshift: «Не удалось найти подходящую группу безопасности. Измените тип подключения на JDBC и повторите...

8974 просмотров

21.10.2021

AWS Glue Crawler для столбца JSONB в PostgreSQL RDS

Я создал краулер, который просматривает таблицу PostgreSQL 9.6 RDS со столбцом JSONB, но краулер определяет тип столбца как "строку". Когда я затем пытаюсь создать задание, которое загружает данные из файла JSON на S3 в таблицу RDS, я получаю...

722 просмотров

postgresql amazon-web-services json amazon-s3 aws-glue

30.09.2021

Преобразование клеевого паркета AWS в s3

Мы используем aws glue etl jobs для преобразования s3 Json или CSV в формат parquet, и результат мы сохраняем в новом s3. Это задание выполняется периодически. Мы сталкиваемся с проблемой, например, если у нас есть 10 файлов json каждый раз, когда...

2188 просмотров

etl aws-glue

09.10.2021

Конфигурации AWS Glue DPU

Я вижу, что DPU состоит из 4 виртуальных ЦП и 16 ГБ памяти. Можно ли изменить эти настройки для vCPU, памяти, чтобы у меня не закончились DPU или не было превышено ограничение DPU. Я думаю, что существует максимальный предел в 5 DPU для конечной...

2892 просмотров

aws-glue

08.10.2021

AWS Glue не классифицирует мои данные

У меня есть html-файл, который имеет такую структуру: <!doctype html public "-//w3c//dtd html 4.0transitional//en"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <meta...

1355 просмотров

amazon-web-services aws-glue logstash-grok

08.10.2021

тип LIST не поддерживается при запросе AWS Athena в таблице, созданной с помощью AWS Glue Catalog.

Я написал задание ETL для преобразования кучи файлов JSON в файлы (объекты) паркета с временным разделением, хранящиеся на S3. Вместо того, чтобы вручную создавать таблицы в AWS Athena и использовать каталог данных Athena, я решил использовать...

1198 просмотров

amazon-web-services aws-glue amazon-athena

22.09.2021

Перезаписать файлы паркета из динамической рамки в AWS Glue

Я использую динамические фреймы для записи паркетного файла в S3, но если файл уже существует, моя программа добавляет новый файл вместо его замены. Я использую следующее предложение: glueContext.write_dynamic_frame.from_options(frame = table,...

13209 просмотров

amazon-web-services parquet aws-glue

27.09.2021

Как передать аргументы в задание Glue в CloudFormation YAML?

Вы можете передать аргументы заданию AWS Glue с помощью параметра --arguments (см. здесь ). CloudFormation документация говорит, что DefaultArguments - это «пары ключ-значение строки UTF-8 к строке UTF-8» и их тип - «объект JSON». Поскольку...

3389 просмотров

yaml amazon-cloudformation aws-glue

25.10.2021

Трубопровод от AWS RDS до S3 с помощью Glue

Я пытался с AWS Glue перенести текущий конвейер данных со скриптов Python на AWS Glue. Мне удалось настроить краулер для извлечения схемы для различных баз данных postgres. Однако я сталкиваюсь с проблемами при извлечении данных из Postgres RDS в...

4209 просмотров

amazon-s3 amazon-rds data-pipeline aws-glue amazon-athena

02.12.2021

Запретить поисковому роботу AWS glue создавать несколько таблиц

Я создал склеивающий сканер, который сканирует данные и создает таблицу в каталоге склеивающих данных. Предположим, у меня есть файл CSV ( file1.csv ), который имеет схему вроде (_2 _, _ 3_), и после завершения выполнения задания поискового робота...

3579 просмотров

aws-glue

15.09.2021

HIVE_CANNOT_OPEN_SPLIT: несоответствие схемы при запросе файлов паркета из Athena

Я получаю сообщение об ошибке несоответствия схемы при запросе данных паркета от Athena. Ошибка: HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split...

4106 просмотров

aws-glue amazon-athena

07.11.2021

AWS Glue Catalog не может обнаружить паркетные файлы, вместо этого создает корневой путь в виде единой таблицы.

У меня есть список из 500+ таблиц, хранящихся в AWS S3 в формате паркета. Структура следующая: aws-bucket/ └── parquet/ └── table1/t1.parquet └── table2/t2.parquet └── table3/t3.parquet └── table4/t4.parquet └──...

936 просмотров

amazon-web-services parquet aws-glue aws-glue-data-catalog

02.10.2021

Как подключить SQLServer с помощью JDBC-соединения в AWS Glue

Я хочу загрузить данные из Glue в SQL Server, используя параметр подключения JDBC, после предоставления формата URL-адреса JDBC jdbc:sqlserver://host:port;databaseName=db_name, User name, and Password , при проверке соединения я получаю...

1422 просмотров

sql-server aws-glue jdbc

04.09.2021

AWS Glue - как изменить имена столбцов в таблице каталога Glue с помощью BOTO3?

Я использую AWS Glue Crawlers для чтения из zip-файлов S3 (без заголовка) и заполнения каталога Glue. По умолчанию столбцы имеют имена: col_0 , _2 _... Как изменить имена этих столбцов, например, модуль python boto3 и напрямую...

1353 просмотров

python amazon-web-services boto3 aws-glue

14.10.2021

автоматизировать загрузку клеевого скрипта

В настоящее время мы используем формирование облака для создания связующего задания (с помощью сборки кода и кода). Единственное, на чем мы застряли, - это как автоматизировать код, который используется для склейки. Наша текущая соответствующая...

429 просмотров

amazon-cloudformation aws-glue

12.11.2021

Как скопировать структуру таблицы AWS Glue в AWS Redshift

Я создал новую базу данных и структуру таблицы с помощью AWS Glue без использования краулера и могу сделать то же самое, я имею в виду создание структуры таблицы с помощью краулера. Проблема не в этом. Я хочу создать такую же структуру таблиц в...

1815 просмотров

amazon-web-services amazon-s3 aws-glue amazon-redshift amazon-redshift-spectrum

21.10.2021

Как создать серверную часть для отображения больших наборов данных в веб-интерфейсе

У меня есть много временных рядов, относящихся к данным, разбитым на часовые интервалы в паркетных файлах, хранящихся в aws s3 (для каждого часа один файл). Целью было бы иметь веб-приложение, отображающее эти данные. Поскольку мы не можем...

145 просмотров

amazon-s3 parquet aws-lambda aws-glue amazon-athena

25.09.2021

Spark Hive SQL возвращает пустой фрейм данных

Я использую Glue в качестве своего мета-магазина улья. У меня почасовая работа, которая каждый час записывает файлы в зарегистрированный раздел. Определение таблицы: CREATE EXTERNAL TABLE table_name ( column_1 STRING, column_2 STRING )...

278 просмотров

apache-spark amazon-emr aws-glue hive

16.10.2021

Определение размера таблицы (в МБ / ГБ) в Spark SQL

Во-первых, позвольте мне начать с того, что я новичок в Spark-SQL . Я пытаюсь понять различные типы и стратегии соединения в Spark-Sql, я хочу знать о подходе к приближению размеров таблиц (которые участвуют в объединении, агрегации и т. Д.),...

2949 просмотров

sql apache-spark-sql aws-glue query-performance

01.10.2021

Должен ли я каждый раз запускать краулер Glue для получения последних данных?

У меня есть корзина S3 с именем Сотрудник. Каждые три часа я буду получать файл в корзине с прикрепленной к нему меткой времени. Я буду использовать задание Glue, чтобы переместить файл из S3 в Redshift с некоторыми преобразованиями. Мой входной...

1581 просмотров

amazon-web-services amazon-s3 aws-glue aws-glue-spark aws-glue-data-catalog

17.09.2021