Вопросы по теме 'spark-avro'
Как преобразовать столбец байтов (с логическим типом как десятичный) в Avro в десятичный?
У меня есть десятичный столбец «TOT_AMT», определенный как тип «байты» и логический тип «десятичный» в моей схеме avro.
После создания фрейма данных в искре с использованием модулей данных spark-avro, когда я попытался суммировать столбец TOT_AMT...
3652 просмотров
schedule
15.03.2022
Spark - Avro читает схему, но фрейм данных пустой
Я использую Gobblin для периодического извлечения реляционных данных из Oracle , преобразования их в avro и публикации в HDFS
Моя структура каталогов dfs выглядит так
-tables
|
-t1
|
-2016080712345
|
-f1.avro
|...
640 просмотров
schedule
21.07.2022
Схема в сообщении Avro
Я вижу, что в сообщения Avro встроена схема, а затем данные в двоичном формате. Если отправлено несколько сообщений и для каждого сообщения создаются новые файлы avro, разве схема не встраивает накладные расходы? Итак, означает ли это, что для...
1345 просмотров
schedule
03.08.2022
Как записать фрейм данных искры в один файл в локальной системе без использования объединения
Я хочу создать файл avro из кадра данных pyspark, и в настоящее время я делаю coalesce , как показано ниже.
df = df.coalesce(1)
df.write.format('avro').save('file:///mypath')
Но теперь это приводит к проблемам с памятью, поскольку все данные...
203 просмотров
schedule
20.08.2022
Spark — сохранение широкого/разреженного фрейма данных
Я хочу сохранить очень широкий кадр данных Spark (> 100 000 столбцов), который редко заполняется (> 99% значений являются нулевыми), сохраняя при этом только ненулевые значения (чтобы избежать затрат на хранение):
Каков наилучший формат для такого...
110 просмотров
schedule
05.09.2022
Как прочитать десятичный логический тип в искровом фрейме данных
У меня есть файл Avro, содержащий следующий десятичный логический тип:
"type":["null",{"type":"bytes","logicalType":"decimal","precision":19,"scale":2}]
когда я пытаюсь прочитать файл с библиотекой scala spark, схема df
MyField: binary...
708 просмотров
schedule
25.09.2022
Как сериализовать данные в схему AVRO в Spark (с Java)?
Я определил схему AVRO и создал несколько классов с помощью avro-tools для схем. Теперь я хочу сериализовать данные на диск. Я нашел несколько ответов о scala для этого, но не для Java. Класс Article создан с помощью avro-tools и создан на основе...
6961 просмотров
schedule
30.01.2023
Попытка понять вкладку заданий пользовательского интерфейса Spark
Я работаю над искровой программой, в которой мне нужно загружать данные avro и обрабатывать их. Я пытаюсь понять, как создаются идентификаторы заданий для искрового приложения. Я использую приведенную ниже строку кода для загрузки данных avro....
215 просмотров
schedule
06.04.2023
Spark меняет схему при записи в Avro
У меня есть задание Spark (в CDH 5.5.1), которое загружает два файла Avro (оба с одной и той же схемой), объединяет их для создания DataFrame (также с той же схемой), а затем записывает их обратно в Avro.
Задание явно сравнивает две входные схемы,...
619 просмотров
schedule
27.02.2023
NoSuchMethodError с использованием Databricks Spark-Avro 3.2.0
У меня есть мастер и рабочий искры, работающие в контейнерах Docker со искрой 2.0.2 и Hadoop 2.7. Я пытаюсь отправить задание из pyspark из другого контейнера (та же сеть), запустив
df = spark.read.json("/data/test.json")...
944 просмотров
schedule
03.02.2023
avro json дополнительное поле
У меня есть следующая схема avro
{
"type":"record",
"name":"test",
"namespace":"test.name",
"fields":[
{"name":"items","type":
{"type":"array",
"items":...
1808 просмотров
schedule
30.03.2023
Как записать объекты Avro в паркет с разделами на Java? Как добавить данные в тот же паркет?
Я использую Confluent KafkaAvroDerserializer для десериализации объектов Avro, отправленных через Kafka. Я хочу записать полученные данные в файл Parquet. Я хочу иметь возможность добавлять данные к тому же паркету и создавать паркет с разделами....
790 просмотров
schedule
07.03.2023
Десериализация Spark 2.4.0 to_avro/from_avro не работает с Seq().toDF()
Я тестирую в Spark 2.4.0 новые функции from_avro и to_avro.
Я создаю фрейм данных только с одним столбцом и тремя строками, сериализую его с помощью avro и десериализую обратно из avro.
Если входной набор данных создается как
val input1 =...
1164 просмотров
schedule
07.11.2022
искра 2.4 com.databricks.spark.avro устранение неполадок
У меня есть искровая работа, которую я обычно отправляю в кластер хаупов с локальной машины. Когда я отправляю его с помощью spark 2.2.0 , он работает нормально, но не запускается, когда я отправляю его с версией 2.4.0 . Только SPARK_HOME имеет...
3074 просмотров
schedule
17.04.2023
Как написать pyspark-dataframe для красного смещения?
Я пытаюсь записать pyspark DataFrame в Redshift, но это приводит к ошибке: -
java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: Provider org.apache.spark.sql.avro.AvroFileFormat не может быть создан
Вызвано:...
1838 просмотров
schedule
30.10.2022
Внешняя таблица Hive в файле AVRO, создающая только данные NULL для всех столбцов
Я пытаюсь создать Hive external table поверх некоторых файлов avro , которые генерируются с использованием spark-scala . Я использую CDH 5.16 , у которого есть hive 1.1 , spark 1.6 .
Я создал hive external table , который успешно...
947 просмотров
schedule
16.01.2023
DataFrameReader выдает неподдерживаемый тип NULL при чтении файла avro
Я пытаюсь прочитать файл avro с помощью DataFrame, но продолжаю получать:
org.apache.spark.sql.avro.IncompileSchemaException: неподдерживаемый тип NULL
Поскольку я собираюсь развернуть его на Dataproc, я использую Spark 2.4.0, но то же самое...
408 просмотров
schedule
04.12.2022
java.lang.NoSuchMethodError при чтении файла avro с помощью PySpark
Я пытаюсь загрузить файл avro с помощью PySpark, запущенного на Dataproc Job:
spark_session.read.format("avro").load("/path/to/avro")
Я получаю сообщение об ошибке:
File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py",...
1657 просмотров
schedule
06.01.2024