Вопросы по теме 'spark-avro'

Как преобразовать столбец байтов (с логическим типом как десятичный) в Avro в десятичный?
У меня есть десятичный столбец «TOT_AMT», определенный как тип «байты» и логический тип «десятичный» в моей схеме avro. После создания фрейма данных в искре с использованием модулей данных spark-avro, когда я попытался суммировать столбец TOT_AMT...
3652 просмотров

Spark - Avro читает схему, но фрейм данных пустой
Я использую Gobblin для периодического извлечения реляционных данных из Oracle , преобразования их в avro и публикации в HDFS Моя структура каталогов dfs выглядит так -tables | -t1 | -2016080712345 | -f1.avro |...
640 просмотров
schedule 21.07.2022

Схема в сообщении Avro
Я вижу, что в сообщения Avro встроена схема, а затем данные в двоичном формате. Если отправлено несколько сообщений и для каждого сообщения создаются новые файлы avro, разве схема не встраивает накладные расходы? Итак, означает ли это, что для...
1345 просмотров
schedule 03.08.2022

Как записать фрейм данных искры в один файл в локальной системе без использования объединения
Я хочу создать файл avro из кадра данных pyspark, и в настоящее время я делаю coalesce , как показано ниже. df = df.coalesce(1) df.write.format('avro').save('file:///mypath') Но теперь это приводит к проблемам с памятью, поскольку все данные...
203 просмотров
schedule 20.08.2022

Spark — сохранение широкого/разреженного фрейма данных
Я хочу сохранить очень широкий кадр данных Spark (> 100 000 столбцов), который редко заполняется (> 99% значений являются нулевыми), сохраняя при этом только ненулевые значения (чтобы избежать затрат на хранение): Каков наилучший формат для такого...
110 просмотров

Как прочитать десятичный логический тип в искровом фрейме данных
У меня есть файл Avro, содержащий следующий десятичный логический тип: "type":["null",{"type":"bytes","logicalType":"decimal","precision":19,"scale":2}] когда я пытаюсь прочитать файл с библиотекой scala spark, схема df MyField: binary...
708 просмотров
schedule 25.09.2022

Как сериализовать данные в схему AVRO в Spark (с Java)?
Я определил схему AVRO и создал несколько классов с помощью avro-tools для схем. Теперь я хочу сериализовать данные на диск. Я нашел несколько ответов о scala для этого, но не для Java. Класс Article создан с помощью avro-tools и создан на основе...
6961 просмотров
schedule 30.01.2023

Попытка понять вкладку заданий пользовательского интерфейса Spark
Я работаю над искровой программой, в которой мне нужно загружать данные avro и обрабатывать их. Я пытаюсь понять, как создаются идентификаторы заданий для искрового приложения. Я использую приведенную ниже строку кода для загрузки данных avro....
215 просмотров
schedule 06.04.2023

Spark меняет схему при записи в Avro
У меня есть задание Spark (в CDH 5.5.1), которое загружает два файла Avro (оба с одной и той же схемой), объединяет их для создания DataFrame (также с той же схемой), а затем записывает их обратно в Avro. Задание явно сравнивает две входные схемы,...
619 просмотров

NoSuchMethodError с использованием Databricks Spark-Avro 3.2.0
У меня есть мастер и рабочий искры, работающие в контейнерах Docker со искрой 2.0.2 и Hadoop 2.7. Я пытаюсь отправить задание из pyspark из другого контейнера (та же сеть), запустив df = spark.read.json("/data/test.json")...
944 просмотров
schedule 03.02.2023

avro json дополнительное поле
У меня есть следующая схема avro { "type":"record", "name":"test", "namespace":"test.name", "fields":[ {"name":"items","type": {"type":"array", "items":...
1808 просмотров
schedule 30.03.2023

Как записать объекты Avro в паркет с разделами на Java? Как добавить данные в тот же паркет?
Я использую Confluent KafkaAvroDerserializer для десериализации объектов Avro, отправленных через Kafka. Я хочу записать полученные данные в файл Parquet. Я хочу иметь возможность добавлять данные к тому же паркету и создавать паркет с разделами....
790 просмотров

Десериализация Spark 2.4.0 to_avro/from_avro не работает с Seq().toDF()
Я тестирую в Spark 2.4.0 новые функции from_avro и to_avro. Я создаю фрейм данных только с одним столбцом и тремя строками, сериализую его с помощью avro и десериализую обратно из avro. Если входной набор данных создается как val input1 =...
1164 просмотров

искра 2.4 com.databricks.spark.avro устранение неполадок
У меня есть искровая работа, которую я обычно отправляю в кластер хаупов с локальной машины. Когда я отправляю его с помощью spark 2.2.0 , он работает нормально, но не запускается, когда я отправляю его с версией 2.4.0 . Только SPARK_HOME имеет...
3074 просмотров

Как написать pyspark-dataframe для красного смещения?
Я пытаюсь записать pyspark DataFrame в Redshift, но это приводит к ошибке: - java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: Provider org.apache.spark.sql.avro.AvroFileFormat не может быть создан Вызвано:...
1838 просмотров
schedule 30.10.2022

Внешняя таблица Hive в файле AVRO, создающая только данные NULL для всех столбцов
Я пытаюсь создать Hive external table поверх некоторых файлов avro , которые генерируются с использованием spark-scala . Я использую CDH 5.16 , у которого есть hive 1.1 , spark 1.6 . Я создал hive external table , который успешно...
947 просмотров
schedule 16.01.2023

DataFrameReader выдает неподдерживаемый тип NULL при чтении файла avro
Я пытаюсь прочитать файл avro с помощью DataFrame, но продолжаю получать: org.apache.spark.sql.avro.IncompileSchemaException: неподдерживаемый тип NULL Поскольку я собираюсь развернуть его на Dataproc, я использую Spark 2.4.0, но то же самое...
408 просмотров

java.lang.NoSuchMethodError при чтении файла avro с помощью PySpark
Я пытаюсь загрузить файл avro с помощью PySpark, запущенного на Dataproc Job: spark_session.read.format("avro").load("/path/to/avro") Я получаю сообщение об ошибке: File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py",...
1657 просмотров