Вопросы по теме 'amazon-redshift-spectrum'
Контроль затрат в Redshift Spectrum при сканировании внешних таблиц (данные S3)
Афина имеет значение по умолчанию ограничения на услуги , которые могут помочь ~ ограничить расходы на случайные "неконтролируемые" запросы в большом озере данных в S3. Они невелики (по времени, а не по объему отсканированных данных), но все же...
824 просмотров
schedule
27.11.2021
Как скопировать структуру таблицы AWS Glue в AWS Redshift
Я создал новую базу данных и структуру таблицы с помощью AWS Glue без использования краулера и могу сделать то же самое, я имею в виду создание структуры таблицы с помощью краулера. Проблема не в этом. Я хочу создать такую же структуру таблиц в...
1815 просмотров
schedule
21.10.2021
Как соединить 2 таблицы, чтобы получить все необходимые данные
У меня 2 вопроса:
/*+ ETLM
{
depend:{
replace:[
{
name:"table_1"
}
]
}
}
*/
SELECT
case_id,
x,
x,
x,
x,
x
FROM table.1
WHERE resolved_date between TO_DATE ('2020/01/01', 'YYYY/MM/DD') and...
49 просмотров
schedule
19.03.2022
Redshift Spectrum Query - Запросу не хватает памяти на уровне запроса S3.
Я пытаюсь выполнить запрос с группировкой по 26 столбцам. Данные хранятся в S3 в формате паркета с разбивкой по дням. Запрос Redshift Spectrum возвращает ошибку ниже. Я не могу найти соответствующую документацию в aws по этому поводу....
602 просмотров
schedule
27.03.2022
Элементы в предложении FROM подзапросов агрегирования должны ссылаться на вложенные таблицы предложений FROM более высокого уровня.
У меня есть данные, записываемые в AWS S3 через kafka, поэтому сообщение может быть записано более одного раза. Я использую Spectrum Redshift для его запроса.
Поскольку данные вложены, я столкнулся с некоторыми ограничениями, описанными в...
287 просмотров
schedule
31.03.2022
результаты за исключением изменения запроса после многократных последовательных прогонов в красном смещении
Я запускаю запрос postgresql ниже в aws redshift. Каждый раз, когда я запускаю этот запрос, я получаю другой результат для количества записей, которые различаются на стороне daily_table.product_repeat_sub_query, с использованием оператора except. Ни...
30 просмотров
schedule
03.06.2022
Отказано в доступе при запросе столбцов структуры
Я могу запросить свою таблицу, используя спектр Redshift. Однако, когда я пытаюсь получить доступ к столбцу, определенному как структура, я получаю следующую ошибку:
ERROR: Spectrum Scan Error: S3ServiceException:Access Denied,Status 403,Error...
73 просмотров
schedule
06.07.2022
[XX000][500310] [Amazon](500310) Недопустимая операция: проанализированный манифест не является допустимым объектом JSON.
Я запускаю сканер по папке, содержащей несколько файлов с разными схемами. Я рассчитываю так найти таблицу для каждого файла.
Что происходит, так это то, что в каталоге Glue я вижу таблицу для каждого файла с собственной схемой. Но когда я...
1269 просмотров
schedule
21.08.2022
Как обновить значение столбца таблицы в Redshift на основе соединения?
Как я могу обновить эту таблицу с этим значением в Redshift:
UPDATE t1
SET col1 = 'new_value_here'
FROM t1
LEFT JOIN t2
on t1.col2 = t2.col2
WHERE
t1.country IN ('USA', 'JAPAN')
AND t1.col1 = 'old_value_here'
AND t2.col2 IS...
273 просмотров
schedule
05.10.2022
redshift Операция выгрузки, приводящая к избыточным данным
Мы используем команды UNLOAD для выполнения некоторого преобразования внешних таблиц на основе s3 и публикации данных в другом ведре s3 в формате PARQUET.
Я использую опцию ALLOWOVERWRITE в операции выгрузки, чтобы заменить файлы, если они уже...
707 просмотров
schedule
06.10.2022
Проблемы с производительностью Redshift Spectrum
Я использую спектр Redhshift. Я создал внешнюю таблицу и загрузил файл данных csv на S3 с примерно 5,5 миллионами записей. Если запустить запрос к этой внешней таблице, это займет ~ 15 секунд, тогда как если я запустил тот же запрос на Amazon...
3526 просмотров
schedule
14.05.2023
AWS Spectrum дает пустой результат для файлов паркета, созданных AWS Glue
Мы создаем ETL с помощью AWS Glue. А для оптимизации производительности запросов мы храним данные в apache parquet. Один раз данные сохраняются на S3 в паркетном формате. Мы используем AWS Spectrum для запроса этих данных.
Мы успешно...
574 просмотров
schedule
22.07.2023
Есть ли преимущества хранения данных в DynamoDB по сравнению с S3 для использования с Redshift?
Мой конкретный сценарий : ожидание накопления ТБ или даже ПБ записей данных JSON, которые отслеживают историю цен для многих товаров. Новые данные будут записываться в хранилище данных сотни или даже тысячи раз в день. Эти данные будут...
609 просмотров
schedule
31.07.2023
Получение значений NULL из S3 при выборе спектра спектра AWS Redshift
Я могу выгружать данные в S3 и запрашивать результаты с помощью Spectrum, но НЕ при использовании разделителя, определенного ниже. Это наш стандартный разделитель, который работает со всей нашей сегодняшней обработкой, связанной с командами Redshift...
1116 просмотров
schedule
31.03.2023
Афина против Redshift Spectrum
Я вроде как оцениваю Athena & Redshift Spectrum. Оба служат для одной и той же цели: Spectrum нужен кластер Redshift, тогда как Athena полностью бессерверна. Афина использует Presto, а Spectrum использует движок Redshift.
Есть ли какие-то...
14569 просмотров
schedule
27.04.2023
Удалить все разделы из красного смещения для внешней таблицы
Я пытаюсь удалить все разделы на внешней таблице в кластере красного смещения. Я не могу найти простой способ сделать это. В настоящее время я делаю это, запуская динамический запрос, чтобы выбрать даты из таблицы и объединить его с логикой...
1033 просмотров
schedule
14.07.2023
Файл манифеста таблицы спектра, когда размер файла S3 указан в десятичном формате
Я читаю файл S3, создавая внешнюю таблицу Spectrum и указывая ее на файл манифеста, который содержит информацию об исходном файле S3. Проблема в том, что размер моего файла S3 указан в десятичном формате, например. 37,5 МБ или 100,2 КБ.
Согласно...
200 просмотров
schedule
01.03.2023