Статьи по теме pyspark-dataframes [pyspark, pyspark-dataframes, apache-spark, amazon-redshift, pyspark-sql]

Вопросы по теме 'pyspark-dataframes'

как получить максимальную дату из ряда в pyspark

from pyspark.sql.window import Window from pyspark.sql import functions as F maxcol = func.udf(lambda row: F.max(row)) temp = [(("ID1", '2019-01-01', '2019-02-01')), (("ID2", '2018-01-01', '2019-05-01')), (("ID3", '2019-06-01', '2019-04-01'))] t1 =...

65 просмотров

pyspark pyspark-dataframes

18.11.2021

Как лучше всего объединить несколько таблиц соединений jdbc в Spark?

Я пытаюсь перенести запрос в pyspark, и мне нужно объединить в нем несколько таблиц. Все рассматриваемые таблицы находятся в Redshift, и я использую соединитель jdbc, чтобы общаться с ними. Моя проблема в том, как сделать эти соединения...

821 просмотров

apache-spark pyspark pyspark-dataframes amazon-redshift pyspark-sql

07.11.2021

Pyspark - итерация по строке для извлечения нескольких пар ключ-значение

В настоящее время у меня есть текстовая строка, разделенная амперсандом, которую мне нужно проанализировать с помощью PySpark, чтобы извлечь пары ключ-значение в массив / словарь. Я могу сделать это с большинством тегов, которые у меня есть в строке,...

180 просмотров

apache-spark pyspark apache-spark-sql pyspark-dataframes

23.11.2021

Создать матрицу nxn из pyspark datafame

Я новичок в pyspark. У меня есть набор текстовых данных 10k. Я создаю расстояние Жаккарда с помощью Minhash lsh. результат, который я получил, например, col1 col2 dist A B 0.77 B C 0.56 C A 0.88 Я хочу преобразовать...

49 просмотров

pyspark pyspark-dataframes

25.11.2021

PySpark: вычисление экспоненциальной скользящей средней

338 просмотров

python apache-spark pyspark apache-spark-sql pyspark-dataframes

10.09.2021

Как эффективно соединить очень большой стол и большой стол в Pyspark

У меня две таблицы. Обе таблицы являются внешними таблицами в улье, хранящимися в формате данных паркета. Первая таблица table_1 содержит 250 миллионов строк ежедневно с 2015 года. Эта таблица разбита на разделы на основе create_date. Таким...

4351 просмотров

apache-spark pyspark apache-spark-sql pyspark-dataframes

09.10.2021

Другой способ передачи списка orderby в методе pyspark windows

У меня только что возникла проблема с выполнением оконной операции на фрейме данных pyspark. Я хочу получить последние записи из входной таблицы с указанным ниже условием, но хочу исключить цикл for: groupby_col = ["col('customer_id')"]...

32 просмотров

python pyspark dataframe apache-spark-sql pyspark-dataframes

07.09.2021

Чтение файлов json в разрешающем режиме - PySpark 2.3

У меня есть работа с данными для чтения кучи файлов json, где есть вероятность, что несколько строк json в некоторых файлах могут быть повреждены (недопустимый json). Ниже приведен код: df = spark.read \ .option("mode",...

54 просмотров

apache-spark pyspark apache-spark-sql pyspark-dataframes

02.12.2021

Невозможно обрезать пустое пространство в фрейме данных pyspark

При загрузке данных из Oracle и записи в PostgreSQL возникает странная проблема. Невозможно записать строку с пробелом в postgres. Столкнувшись с проблемой ниже Caused by: java.sql.BatchUpdateException: Batch entry 0 INSERT INTO...

86 просмотров

pyspark pyspark-dataframes data-ingestion data-cleaning

06.09.2021

Загрузите файл json в искровой фрейм данных

Я пытаюсь загрузить следующий файл data.json в искровой фреймворк: {"positionmessage":{"callsign": "PPH1", "name": 0.0, "mmsi": 100}} {"positionmessage":{"callsign": "PPH2", "name": 0.0, "mmsi": 200}} {"positionmessage":{"callsign": "PPH3",...

38 просмотров

json pyspark pyspark-dataframes

25.12.2021

изменение столбцов pyspark dataframe

У меня есть входной фрейм данных, как показано ниже, где входные столбцы являются динамическими, то есть это может быть число n - например, input1 для input2 +----+----+-------+------+------+ |dim1|dim2| byvar|input1|input2|...

89 просмотров

pyspark dataframe pyspark-dataframes hive

19.02.2022

Преобразование столбца структуры PySpark DataFrame в строку пар ключ-значение

227 просмотров

python apache-spark pyspark apache-spark-sql pyspark-dataframes

27.02.2022

Производительность PySpark DataFrame / Vectors против Numpy Array

Мой проект включает в себя множество операций между массивами numpy и матрицами numpy, которые в настоящее время выполняются в UDF. Как вы думаете, если бы мы использовали внутренние структуры в PySpark, у нас было бы повышение производительности?...

142 просмотров

apache-spark pyspark apache-spark-sql pyspark-dataframes numpy-ndarray

05.03.2022

Проверить фрейм данных ASCII pyspark

Мне нужно проверить фрейм данных pyspark, если все значения являются ASCII, я делаю это следующим образом: def is_ascii(s): if s: return all(ord(c) < 128 for c in s) else: return None is_ascii_udf = udf(lambda l: is_ascii(l),...

168 просмотров

python-3.x pyspark pyspark-dataframes user-defined-functions ascii

09.03.2022

Pyspark как распаковать список списков в строковом формате

У меня есть фреймворк pyspark со столбцом, содержащим StructField строкового типа, который имеет список динамической длины списков. df.schema: StructType(List(StructField(id,StringType,true),StructField(recs,StringType,true))) |id | recs |...

122 просмотров

python apache-spark pyspark apache-spark-sql pyspark-dataframes

13.03.2022

Pyspark: чтение вложенных столбцов из файла CSV и назначение схемы фрейму данных

Я попытался прочитать CSV-файл, содержащий вложенный столбец. Пример: name,age,addresses_values person_1,30,["France","street name",75000] При чтении я устал назначать такую схему: csv_schema = StructType([...

159 просмотров

apache-spark pyspark apache-spark-sql pyspark-dataframes

29.03.2022

pyspark получает номер месяца, месяца, квартала и квартала из столбца фрейма данных

Я ввел два столбца с partner_id и month_id (в формате STRING - YYMM) partner_id|month_id| 1001 | 2001 | 1002 | 2002 | 1003 | 2003 | 1001 | 2004 | 1002 | 2005 | 1003 | 2006 | 1001 | 2007 | 1002...

305 просмотров

python date pyspark dataframe pyspark-dataframes

16.04.2022

Pyspark groupby с udf: низкая производительность на локальной машине

Я пытаюсь провести некоторый анализ огромного набора данных, состоящего из нескольких ежедневных файлов по 15 ГБ каждый. Чтобы быть быстрее, просто для целей тестирования я создал очень небольшой набор данных, который включает все соответствующие...

35 просмотров

pyspark pyspark-dataframes

29.04.2022

Сумма по строкам для каждой группы и добавление итогов в виде новой строки в фрейме данных в Pyspark

У меня есть фреймворк, подобный этому образцу df = spark.createDataFrame( [(2, "A" , "A2" , 2500), (2, "A" , "A11" , 3500), (2, "A" , "A12" , 5500), (4, "B" ,...

130 просмотров

pyspark apache-spark-sql pyspark-dataframes

09.05.2022

Как сохранить фрейм данных в файл json с многострочным вариантом в pyspark

В Pyspark я хочу сохранить фрейм данных как файл json, но в формате ниже Скажите, что это мой фрейм данных >>> rdd1.show() +----------+-----+ | f1| f2| +----------+-----+ |AAAAAAAAAA|99999| | BBBBBBBBB|99999| | CCCCCCCCC|99999|...

316 просмотров

json pyspark pyspark-dataframes

25.05.2022