Вопросы по теме 'aws-glue'

клей для соединения красного смещения: невозможно найти подходящую группу безопасности
Я пытаюсь настроить задание AWS Glue и подключиться к Redshift. Я получаю сообщение об ошибке, когда устанавливаю тип подключения Redshift: «Не удалось найти подходящую группу безопасности. Измените тип подключения на JDBC и повторите...
8974 просмотров

AWS Glue Crawler для столбца JSONB в PostgreSQL RDS
Я создал краулер, который просматривает таблицу PostgreSQL 9.6 RDS со столбцом JSONB, но краулер определяет тип столбца как "строку". Когда я затем пытаюсь создать задание, которое загружает данные из файла JSON на S3 в таблицу RDS, я получаю...
722 просмотров

Преобразование клеевого паркета AWS в s3
Мы используем aws glue etl jobs для преобразования s3 Json или CSV в формат parquet, и результат мы сохраняем в новом s3. Это задание выполняется периодически. Мы сталкиваемся с проблемой, например, если у нас есть 10 файлов json каждый раз, когда...
2188 просмотров
schedule 09.10.2021

Конфигурации AWS Glue DPU
Я вижу, что DPU состоит из 4 виртуальных ЦП и 16 ГБ памяти. Можно ли изменить эти настройки для vCPU, памяти, чтобы у меня не закончились DPU или не было превышено ограничение DPU. Я думаю, что существует максимальный предел в 5 DPU для конечной...
2892 просмотров
schedule 08.10.2021

AWS Glue не классифицирует мои данные
У меня есть html-файл, который имеет такую ​​структуру: <!doctype html public "-//w3c//dtd html 4.0transitional//en"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <meta...
1355 просмотров

тип LIST не поддерживается при запросе AWS Athena в таблице, созданной с помощью AWS Glue Catalog.
Я написал задание ETL для преобразования кучи файлов JSON в файлы (объекты) паркета с временным разделением, хранящиеся на S3. Вместо того, чтобы вручную создавать таблицы в AWS Athena и использовать каталог данных Athena, я решил использовать...
1198 просмотров

Перезаписать файлы паркета из динамической рамки в AWS Glue
Я использую динамические фреймы для записи паркетного файла в S3, но если файл уже существует, моя программа добавляет новый файл вместо его замены. Я использую следующее предложение: glueContext.write_dynamic_frame.from_options(frame = table,...
13209 просмотров
schedule 27.09.2021

Как передать аргументы в задание Glue в CloudFormation YAML?
Вы можете передать аргументы заданию AWS Glue с помощью параметра --arguments (см. здесь ). CloudFormation документация говорит, что DefaultArguments - это «пары ключ-значение строки UTF-8 к строке UTF-8» и их тип - «объект JSON». Поскольку...
3389 просмотров
schedule 25.10.2021

Трубопровод от AWS RDS до S3 с помощью Glue
Я пытался с AWS Glue перенести текущий конвейер данных со скриптов Python на AWS Glue. Мне удалось настроить краулер для извлечения схемы для различных баз данных postgres. Однако я сталкиваюсь с проблемами при извлечении данных из Postgres RDS в...
4209 просмотров

Запретить поисковому роботу AWS glue создавать несколько таблиц
Я создал склеивающий сканер, который сканирует данные и создает таблицу в каталоге склеивающих данных. Предположим, у меня есть файл CSV ( file1.csv ), который имеет схему вроде (_2 _, _ 3_), и после завершения выполнения задания поискового робота...
3579 просмотров
schedule 15.09.2021

HIVE_CANNOT_OPEN_SPLIT: несоответствие схемы при запросе файлов паркета из Athena
Я получаю сообщение об ошибке несоответствия схемы при запросе данных паркета от Athena. Ошибка: HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split...
4106 просмотров
schedule 07.11.2021

AWS Glue Catalog не может обнаружить паркетные файлы, вместо этого создает корневой путь в виде единой таблицы.
У меня есть список из 500+ таблиц, хранящихся в AWS S3 в формате паркета. Структура следующая: aws-bucket/ └── parquet/ └── table1/t1.parquet └── table2/t2.parquet └── table3/t3.parquet └── table4/t4.parquet └──...
936 просмотров

Как подключить SQLServer с помощью JDBC-соединения в AWS Glue
Я хочу загрузить данные из Glue в SQL Server, используя параметр подключения JDBC, после предоставления формата URL-адреса JDBC jdbc:sqlserver://host:port;databaseName=db_name, User name, and Password , при проверке соединения я получаю...
1422 просмотров
schedule 04.09.2021

AWS Glue - как изменить имена столбцов в таблице каталога Glue с помощью BOTO3?
Я использую AWS Glue Crawlers для чтения из zip-файлов S3 (без заголовка) и заполнения каталога Glue. По умолчанию столбцы имеют имена: col_0 , _2 _... Как изменить имена этих столбцов, например, модуль python boto3 и напрямую...
1353 просмотров

автоматизировать загрузку клеевого скрипта
В настоящее время мы используем формирование облака для создания связующего задания (с помощью сборки кода и кода). Единственное, на чем мы застряли, - это как автоматизировать код, который используется для склейки. Наша текущая соответствующая...
429 просмотров
schedule 12.11.2021

Как скопировать структуру таблицы AWS Glue в AWS Redshift
Я создал новую базу данных и структуру таблицы с помощью AWS Glue без использования краулера и могу сделать то же самое, я имею в виду создание структуры таблицы с помощью краулера. Проблема не в этом. Я хочу создать такую ​​же структуру таблиц в...
1815 просмотров

Как создать серверную часть для отображения больших наборов данных в веб-интерфейсе
У меня есть много временных рядов, относящихся к данным, разбитым на часовые интервалы в паркетных файлах, хранящихся в aws s3 (для каждого часа один файл). Целью было бы иметь веб-приложение, отображающее эти данные. Поскольку мы не можем...
145 просмотров

Spark Hive SQL возвращает пустой фрейм данных
Я использую Glue в качестве своего мета-магазина улья. У меня почасовая работа, которая каждый час записывает файлы в зарегистрированный раздел. Определение таблицы: CREATE EXTERNAL TABLE table_name ( column_1 STRING, column_2 STRING )...
278 просмотров
schedule 16.10.2021

Определение размера таблицы (в МБ / ГБ) в Spark SQL
Во-первых, позвольте мне начать с того, что я новичок в Spark-SQL . Я пытаюсь понять различные типы и стратегии соединения в Spark-Sql, я хочу знать о подходе к приближению размеров таблиц (которые участвуют в объединении, агрегации и т. Д.),...
2949 просмотров

Должен ли я каждый раз запускать краулер Glue для получения последних данных?
У меня есть корзина S3 с именем Сотрудник. Каждые три часа я буду получать файл в корзине с прикрепленной к нему меткой времени. Я буду использовать задание Glue, чтобы переместить файл из S3 в Redshift с некоторыми преобразованиями. Мой входной...
1581 просмотров