Статьи по теме spark-avro

Вопросы по теме 'spark-avro'

Как преобразовать столбец байтов (с логическим типом как десятичный) в Avro в десятичный?

У меня есть десятичный столбец «TOT_AMT», определенный как тип «байты» и логический тип «десятичный» в моей схеме avro. После создания фрейма данных в искре с использованием модулей данных spark-avro, когда я попытался суммировать столбец TOT_AMT...

3652 просмотров

15.03.2022

Spark - Avro читает схему, но фрейм данных пустой

Я использую Gobblin для периодического извлечения реляционных данных из Oracle , преобразования их в avro и публикации в HDFS Моя структура каталогов dfs выглядит так -tables | -t1 | -2016080712345 | -f1.avro |...

640 просмотров

apache-spark scala avro spark-avro gobblin

21.07.2022

Схема в сообщении Avro

Я вижу, что в сообщения Avro встроена схема, а затем данные в двоичном формате. Если отправлено несколько сообщений и для каждого сообщения создаются новые файлы avro, разве схема не встраивает накладные расходы? Итак, означает ли это, что для...

1345 просмотров

apache avro spark-avro avro4s avro-tools

03.08.2022

Как записать фрейм данных искры в один файл в локальной системе без использования объединения

Я хочу создать файл avro из кадра данных pyspark, и в настоящее время я делаю coalesce , как показано ниже. df = df.coalesce(1) df.write.format('avro').save('file:///mypath') Но теперь это приводит к проблемам с памятью, поскольку все данные...

203 просмотров

apache-spark pyspark spark-avro

20.08.2022

Spark — сохранение широкого/разреженного фрейма данных

Я хочу сохранить очень широкий кадр данных Spark (> 100 000 столбцов), который редко заполняется (> 99% значений являются нулевыми), сохраняя при этом только ненулевые значения (чтобы избежать затрат на хранение): Каков наилучший формат для такого...

110 просмотров

parquet apache-spark spark-avro google-cloud-bigtable hbase

05.09.2022

Как прочитать десятичный логический тип в искровом фрейме данных

У меня есть файл Avro, содержащий следующий десятичный логический тип: "type":["null",{"type":"bytes","logicalType":"decimal","precision":19,"scale":2}] когда я пытаюсь прочитать файл с библиотекой scala spark, схема df MyField: binary...

708 просмотров

apache-spark scala avro spark-avro

25.09.2022

Как сериализовать данные в схему AVRO в Spark (с Java)?

Я определил схему AVRO и создал несколько классов с помощью avro-tools для схем. Теперь я хочу сериализовать данные на диск. Я нашел несколько ответов о scala для этого, но не для Java. Класс Article создан с помощью avro-tools и создан на основе...

6961 просмотров

java apache-spark hdfs avro spark-avro

30.01.2023

Попытка понять вкладку заданий пользовательского интерфейса Spark

Я работаю над искровой программой, в которой мне нужно загружать данные avro и обрабатывать их. Я пытаюсь понять, как создаются идентификаторы заданий для искрового приложения. Я использую приведенную ниже строку кода для загрузки данных avro....

215 просмотров

apache-spark spark-avro

06.04.2023

Spark меняет схему при записи в Avro

У меня есть задание Spark (в CDH 5.5.1), которое загружает два файла Avro (оба с одной и той же схемой), объединяет их для создания DataFrame (также с той же схемой), а затем записывает их обратно в Avro. Задание явно сравнивает две входные схемы,...

619 просмотров

apache-spark avro cloudera-cdh spark-avro

27.02.2023

NoSuchMethodError с использованием Databricks Spark-Avro 3.2.0

У меня есть мастер и рабочий искры, работающие в контейнерах Docker со искрой 2.0.2 и Hadoop 2.7. Я пытаюсь отправить задание из pyspark из другого контейнера (та же сеть), запустив df = spark.read.json("/data/test.json")...

944 просмотров

apache-spark databricks avro spark-avro

03.02.2023

avro json дополнительное поле

У меня есть следующая схема avro { "type":"record", "name":"test", "namespace":"test.name", "fields":[ {"name":"items","type": {"type":"array", "items":...

1808 просмотров

avro spark-avro

30.03.2023

Как записать объекты Avro в паркет с разделами на Java? Как добавить данные в тот же паркет?

Я использую Confluent KafkaAvroDerserializer для десериализации объектов Avro, отправленных через Kafka. Я хочу записать полученные данные в файл Parquet. Я хочу иметь возможность добавлять данные к тому же паркету и создавать паркет с разделами....

790 просмотров

apache-kafka parquet apache-spark avro spark-avro

07.03.2023

Десериализация Spark 2.4.0 to_avro/from_avro не работает с Seq().toDF()

Я тестирую в Spark 2.4.0 новые функции from_avro и to_avro. Я создаю фрейм данных только с одним столбцом и тремя строками, сериализую его с помощью avro и десериализую обратно из avro. Если входной набор данных создается как val input1 =...

1164 просмотров

apache-spark apache-spark-sql avro spark-avro

07.11.2022

искра 2.4 com.databricks.spark.avro устранение неполадок

У меня есть искровая работа, которую я обычно отправляю в кластер хаупов с локальной машины. Когда я отправляю его с помощью spark 2.2.0 , он работает нормально, но не запускается, когда я отправляю его с версией 2.4.0 . Только SPARK_HOME имеет...

3074 просмотров

apache-spark spark-submit spark-avro uberjar

17.04.2023

Как написать pyspark-dataframe для красного смещения?

Я пытаюсь записать pyspark DataFrame в Redshift, но это приводит к ошибке: - java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: Provider org.apache.spark.sql.avro.AvroFileFormat не может быть создан Вызвано:...

1838 просмотров

pyspark spark-avro spark-redshift

30.10.2022

Внешняя таблица Hive в файле AVRO, создающая только данные NULL для всех столбцов

Я пытаюсь создать Hive external table поверх некоторых файлов avro , которые генерируются с использованием spark-scala . Я использую CDH 5.16 , у которого есть hive 1.1 , spark 1.6 . Я создал hive external table , который успешно...

947 просмотров

hadoop hive avro spark-avro hive-table

16.01.2023

DataFrameReader выдает неподдерживаемый тип NULL при чтении файла avro

Я пытаюсь прочитать файл avro с помощью DataFrame, но продолжаю получать: org.apache.spark.sql.avro.IncompileSchemaException: неподдерживаемый тип NULL Поскольку я собираюсь развернуть его на Dataproc, я использую Spark 2.4.0, но то же самое...

408 просмотров

google-cloud-dataproc apache-spark apache-spark-sql spark-avro

04.12.2022

java.lang.NoSuchMethodError при чтении файла avro с помощью PySpark

Я пытаюсь загрузить файл avro с помощью PySpark, запущенного на Dataproc Job: spark_session.read.format("avro").load("/path/to/avro") Я получаю сообщение об ошибке: File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py",...

1657 просмотров

google-cloud-dataproc apache-spark pyspark spark-avro

06.01.2024