Вопросы по теме 'amazon-redshift-spectrum'

Контроль затрат в Redshift Spectrum при сканировании внешних таблиц (данные S3)
Афина имеет значение по умолчанию ограничения на услуги , которые могут помочь ~ ограничить расходы на случайные "неконтролируемые" запросы в большом озере данных в S3. Они невелики (по времени, а не по объему отсканированных данных), но все же...
824 просмотров

Как скопировать структуру таблицы AWS Glue в AWS Redshift
Я создал новую базу данных и структуру таблицы с помощью AWS Glue без использования краулера и могу сделать то же самое, я имею в виду создание структуры таблицы с помощью краулера. Проблема не в этом. Я хочу создать такую ​​же структуру таблиц в...
1815 просмотров

Как соединить 2 таблицы, чтобы получить все необходимые данные
У меня 2 вопроса: /*+ ETLM { depend:{ replace:[ { name:"table_1" } ] } } */ SELECT case_id, x, x, x, x, x FROM table.1 WHERE resolved_date between TO_DATE ('2020/01/01', 'YYYY/MM/DD') and...
49 просмотров

Redshift Spectrum Query - Запросу не хватает памяти на уровне запроса S3.
Я пытаюсь выполнить запрос с группировкой по 26 столбцам. Данные хранятся в S3 в формате паркета с разбивкой по дням. Запрос Redshift Spectrum возвращает ошибку ниже. Я не могу найти соответствующую документацию в aws по этому поводу....
602 просмотров

Элементы в предложении FROM подзапросов агрегирования должны ссылаться на вложенные таблицы предложений FROM более высокого уровня.
У меня есть данные, записываемые в AWS S3 через kafka, поэтому сообщение может быть записано более одного раза. Я использую Spectrum Redshift для его запроса. Поскольку данные вложены, я столкнулся с некоторыми ограничениями, описанными в...
287 просмотров

результаты за исключением изменения запроса после многократных последовательных прогонов в красном смещении
Я запускаю запрос postgresql ниже в aws redshift. Каждый раз, когда я запускаю этот запрос, я получаю другой результат для количества записей, которые различаются на стороне daily_table.product_repeat_sub_query, с использованием оператора except. Ни...
30 просмотров

Отказано в доступе при запросе столбцов структуры
Я могу запросить свою таблицу, используя спектр Redshift. Однако, когда я пытаюсь получить доступ к столбцу, определенному как структура, я получаю следующую ошибку: ERROR: Spectrum Scan Error: S3ServiceException:Access Denied,Status 403,Error...
73 просмотров

[XX000][500310] [Amazon](500310) Недопустимая операция: проанализированный манифест не является допустимым объектом JSON.
Я запускаю сканер по папке, содержащей несколько файлов с разными схемами. Я рассчитываю так найти таблицу для каждого файла. Что происходит, так это то, что в каталоге Glue я вижу таблицу для каждого файла с собственной схемой. Но когда я...
1269 просмотров

Как обновить значение столбца таблицы в Redshift на основе соединения?
Как я могу обновить эту таблицу с этим значением в Redshift: UPDATE t1 SET col1 = 'new_value_here' FROM t1 LEFT JOIN t2 on t1.col2 = t2.col2 WHERE t1.country IN ('USA', 'JAPAN') AND t1.col1 = 'old_value_here' AND t2.col2 IS...
273 просмотров

redshift Операция выгрузки, приводящая к избыточным данным
Мы используем команды UNLOAD для выполнения некоторого преобразования внешних таблиц на основе s3 и публикации данных в другом ведре s3 в формате PARQUET. Я использую опцию ALLOWOVERWRITE в операции выгрузки, чтобы заменить файлы, если они уже...
707 просмотров

Проблемы с производительностью Redshift Spectrum
Я использую спектр Redhshift. Я создал внешнюю таблицу и загрузил файл данных csv на S3 с примерно 5,5 миллионами записей. Если запустить запрос к этой внешней таблице, это займет ~ 15 секунд, тогда как если я запустил тот же запрос на Amazon...
3526 просмотров

AWS Spectrum дает пустой результат для файлов паркета, созданных AWS Glue
Мы создаем ETL с помощью AWS Glue. А для оптимизации производительности запросов мы храним данные в apache parquet. Один раз данные сохраняются на S3 в паркетном формате. Мы используем AWS Spectrum для запроса этих данных. Мы успешно...
574 просмотров

Есть ли преимущества хранения данных в DynamoDB по сравнению с S3 для использования с Redshift?
Мой конкретный сценарий : ожидание накопления ТБ или даже ПБ записей данных JSON, которые отслеживают историю цен для многих товаров. Новые данные будут записываться в хранилище данных сотни или даже тысячи раз в день. Эти данные будут...
609 просмотров

Получение значений NULL из S3 при выборе спектра спектра AWS Redshift
Я могу выгружать данные в S3 и запрашивать результаты с помощью Spectrum, но НЕ при использовании разделителя, определенного ниже. Это наш стандартный разделитель, который работает со всей нашей сегодняшней обработкой, связанной с командами Redshift...
1116 просмотров

Афина против Redshift Spectrum
Я вроде как оцениваю Athena & Redshift Spectrum. Оба служат для одной и той же цели: Spectrum нужен кластер Redshift, тогда как Athena полностью бессерверна. Афина использует Presto, а Spectrum использует движок Redshift. Есть ли какие-то...
14569 просмотров

Удалить все разделы из красного смещения для внешней таблицы
Я пытаюсь удалить все разделы на внешней таблице в кластере красного смещения. Я не могу найти простой способ сделать это. В настоящее время я делаю это, запуская динамический запрос, чтобы выбрать даты из таблицы и объединить его с логикой...
1033 просмотров

Файл манифеста таблицы спектра, когда размер файла S3 указан в десятичном формате
Я читаю файл S3, создавая внешнюю таблицу Spectrum и указывая ее на файл манифеста, который содержит информацию об исходном файле S3. Проблема в том, что размер моего файла S3 указан в десятичном формате, например. 37,5 МБ или 100,2 КБ. Согласно...
200 просмотров