Вопросы по теме 'aws-glue-spark'

Должен ли я каждый раз запускать краулер Glue для получения последних данных?
У меня есть корзина S3 с именем Сотрудник. Каждые три часа я буду получать файл в корзине с прикрепленной к нему меткой времени. Я буду использовать задание Glue, чтобы переместить файл из S3 в Redshift с некоторыми преобразованиями. Мой входной...
1581 просмотров

Создал собственный скрипт склейки pyspark для чтения данных из красного смещения
Я написал этот код с данными чтения из s3 и записью в s3 на AWS Glue. Это настраиваемый код pyspark, и я не использую сгенерированные сценарии. Вот сценарий from pyspark import SparkConf,SparkContext from pyspark.sql.types import * from...
49 просмотров

Вставить в таблицу SQL Server выбранные столбцы из фрейма данных Spark
У меня есть таблица SQL Server, схема которой отличается от схемы моего фрейма данных. Я хотел бы выбрать несколько столбцов из моего фрейма данных и вставить в таблицу выбранные мной значения. В основном что-то похожее на приведенный ниже код, но...
404 просмотров

Задание AWS Glue Python не создает новые разделы каталога данных
Я создал задание AWS Glue с помощью Glue Studio. Он берет данные из каталога данных Glue, выполняет некоторые преобразования и записывает данные в другой каталог данных. При настройке целевого узла я включил возможность создания новых разделов...
262 просмотров

AWS Glue с PySpark - при экспорте DynamicFrame в S3 возникает ошибка UnsupportedOperationException.
В начале я должен сказать, что использовал AWS Glue Studio , чтобы узнать, как использовать Glue с PySpark, и пока все идет очень хорошо. Так было до тех пор, пока я не столкнулся с ошибкой, которую не могу понять (не говоря уже о решении). Пример...
310 просмотров

Ошибка при создании таблицы с именем столбца, содержащим точку (.) В Amazon Athena, даже после экранирования точки с помощью обратных кавычек (`)
Согласно https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html , Специальные символы Специальные символы, кроме подчеркивания (_), не поддерживаются. Дополнительные сведения см. В документации DDL Apache Hive...
796 просмотров

Конечная точка разработки AWS Glue не работает должным образом
Я пытаюсь использовать конечную точку разработки для интерактивного запуска и редактирования сценариев ETL, но, похоже, возникают некоторые проблемы в конечной точке разработки сразу после ее создания, поскольку я получаю ошибки в scala / python REPL,...
358 просмотров

AWS Glue - выравнивает глубоко вложенный JSON
Я хотел бы знать, есть ли способ сгладить глубоко вложенный JSON с помощью задания Glue ETL? В нем есть вложенные массивы. Я попытался запустить искатель Glue на JSON, который вернул каталог всего с одним полем PerPlayer с типом данных struct....
762 просмотров