Вопросы по теме 'orc'

Запись слишком велика для буфера в памяти. Ошибка при работе с таблицами ORC Hive через TEZ
Мы пытаемся прочитать данные из таблицы ORC в HIVE (1.2.1) и поместить эти данные в таблицу с TextInputFormat. Некоторые записи в исходных данных слишком велики, и во время работы возникает следующая ошибка:...
1286 просмотров
schedule 02.10.2021

Как выполнить импорт Sqoop в сжатую многораздельную таблицу Hive из Oracle
Как выполнить импорт Sqoop из Oracle в Hive в сжатой таблице Пробовал импортировать Sqoop из Oracle в Hive в текстовой секционированной таблице, и это сработало. Когда вы пытаетесь сделать то же самое в сжатой таблице (SNAPPY, ZLIB, BZIP2), при...
321 просмотров
schedule 29.09.2021

Почему формат ORC представлен в HDFS, если HDFS в первую очередь предназначена для объектного хранилища
Как мы все знаем, HDFS - это, по сути, система объектного хранения, в которой данные, однажды записанные в нее, не могут быть обновлены, но весь файл должен быть перезаписан целиком. Если это так, то в чем необходимость введения формата ORC в HDFS,...
16 просмотров
schedule 20.09.2021

Таблицы Hive Bucketed включены для транзакций
Итак, мы пытаемся создать таблицу Hive с разделением в формате ORC и включенной для транзакций, используя приведенную ниже инструкцию. create table orctablecheck ( id int,name string) clustered by (sno) into 3 buckets stored as orc TBLPROPERTIES...
1087 просмотров
schedule 06.03.2022

Polybase для указания файла (ов) локально в локальной среде?
У меня уникальная ситуация, когда все мои файлы orc находятся в Azure в хранилище BLOB-объектов в виде сжатого файла orc. Мне нужно загрузить эти файлы в локальную базу данных SQL. Я могу использовать polybase для загрузки данных, которые я понимаю,...
333 просмотров
schedule 11.03.2022

Фабрика данных Azure: использование файла ORC в качестве источника или приемника в потоке данных с помощью ADLS второго поколения?
Я пытаюсь создать поток данных фабрики данных Azure из источника файла Avro с некоторыми преобразованиями, приземляясь как файл ORC, как в ADLS gen2. Однако ORC, похоже, не подходит для приемника потока данных. Я также пробовал использовать в...
196 просмотров

объединить файл Orc на уровне данных, а не на уровне полосы
Я хочу выполнить слияние на уровне данных, чтобы уменьшить количество полос. Это связано с тем, что файлы обрабатываются ежечасно, и для каждого раздела создается множество небольших файлов ORC. Я знаю, что конкатенация улья может объединять файлы на...
477 просмотров
schedule 03.06.2022

Как поступить с Афиной при изменении схемы новых данных?
У меня есть куча файлов ORC в S3, которые разбиты по датам. Данные помещаются в папки с их датами в S3. Однако недавно к созданным файлам ORC были добавлены новые столбцы. Другими словами, более старые файлы ORC могут иметь ColumnA, ColumnB,...
91 просмотров

NPE при чтении файла ORC с использованием Spark 1.4 API
Я читаю много файлов ORC в Spark и обрабатываю их, эти файлы в основном являются разделами Hive. В большинстве случаев обработка проходит хорошо, но для некоторых файлов возникает следующее исключение: не знаю почему? Эти файлы отлично работают в...
829 просмотров
schedule 23.08.2022

Создать таблицу Hive поверх данных, созданных в Spark
Я создал данные в формате ORC в Spark следующим образом: var select: String = "SELECT ..." sqlContext.sql(select).write.format("orc").save("/tmp/out/20160101") select = "SELECT ..."...
1349 просмотров
schedule 30.01.2023

HIVE - Ошибка чтения ORC с нулевыми десятичными значениями - java.io.EOFException: чтение BigInteger после EOF
Я столкнулся с проблемой HIVE при загрузке внешней таблицы ORC с NULL внутри столбца, который был определен как DECIMAL (31,8). Похоже, hive не может прочитать файл ORC после загрузки и больше не может просматривать записи с NULL внутри этого поля....
1447 просмотров
schedule 01.08.2023

Сбой задания Spark, использующего контекст куста, в oozie
В одном из наших пайплайнов мы выполняем агрегацию с помощью spark(java), и она управляется с помощью oozie. Этот конвейер записывает агрегированные данные в файл ORC, используя следующие строки. HiveContext hc = new HiveContext(sc); DataFrame...
618 просмотров
schedule 27.06.2023

Spark 2.1 Добавление раздела Hive в формате ORC
Я использую pyspark 2.1 для динамического создания разделов из таблицы A в таблицу B. Ниже приведены DDL. create table A ( objid bigint, occur_date timestamp) STORED AS ORC; create table B ( objid bigint, occur_date timestamp) PARTITIONED BY (...
1816 просмотров
schedule 25.01.2023

Hive — заменить столбцы в таблице ORC
У меня есть таблица кустов, сохраненная в файлах ORC, это определение в команде «создать»: ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' OUTPUTFORMAT...
1405 просмотров
schedule 05.12.2022

Является ли определение разделителя в таблице Hive ORC бесполезным?
Когда вы создаете таблицу ORC в улье, вы меняете тип файла на orc. Это означает, что вы не можете просматривать определенный файл вне таблицы orc. Вот пример оператора создания таблицы orc CREATE TABLE IF NOT EXISTS table_orc_v1 ( col1 int,...
402 просмотров
schedule 17.10.2022

Преобразование CSV в формат файла ORC
У меня есть файл в хранилище BLOB, который содержит значение, разделенное запятыми. Как преобразовать этот файл .txt в формат ORC. Я загружаю эти данные в Azure SQL DW и не использую Java. Пожалуйста, поделитесь своими мыслями по этому поводу....
746 просмотров

Файлы ORC с Hive: java.io.IOException: два считывателя
У меня есть таблица кустов ACID с файлами в формате ORC. При попытке уплотнения я получаю следующую ошибку: Task: ... exited : java.io.IOException: Two readers for ... Полная ошибка выглядит следующим образом: 2019-06-03 07:01:05,357 ERROR [IPC...
911 просмотров
schedule 13.02.2023

Конвертировать кадр данных Pandas из/в файл ORC
Можно ли преобразовать кадр данных Pandas из/в файл ORC? Я могу преобразовать df в файл паркета, но библиотека, похоже, не поддерживает ORC. Есть ли доступное решение в Python? Если нет, то какая может быть лучшая стратегия? Одним из вариантов...
3192 просмотров
schedule 04.05.2023

Требуется ли для Hive ORC ACID в Hive 3 TEZ, если не используется Map Reduce?
Насколько я понимаю, с Hive 3 таблица HIVE ORC ACID, использующая MERGE, также требует как минимум TEZ в качестве основного механизма выполнения, если не используется Map Reduce или механизм Spark для Hive. На самом деле я не уверен, что HIVE...
304 просмотров
schedule 10.03.2023

Пустая строка таблицы Hive ORC
У меня есть таблица Hive с данными, хранящимися как ORC. Я пишу в некоторые поля пустые значения (пусто, '""), но иногда, когда я запускаю запрос на выборку в этой таблице, столбцы пустой строки отображаются как NULL в результате запроса. Я хотел бы...
122 просмотров
schedule 01.02.2023