Вопросы по теме 'pyspark-dataframes'

как получить максимальную дату из ряда в pyspark
from pyspark.sql.window import Window from pyspark.sql import functions as F maxcol = func.udf(lambda row: F.max(row)) temp = [(("ID1", '2019-01-01', '2019-02-01')), (("ID2", '2018-01-01', '2019-05-01')), (("ID3", '2019-06-01', '2019-04-01'))] t1 =...
65 просмотров
schedule 18.11.2021

Как лучше всего объединить несколько таблиц соединений jdbc в Spark?
Я пытаюсь перенести запрос в pyspark, и мне нужно объединить в нем несколько таблиц. Все рассматриваемые таблицы находятся в Redshift, и я использую соединитель jdbc, чтобы общаться с ними. Моя проблема в том, как сделать эти соединения...
821 просмотров

Pyspark - итерация по строке для извлечения нескольких пар ключ-значение
В настоящее время у меня есть текстовая строка, разделенная амперсандом, которую мне нужно проанализировать с помощью PySpark, чтобы извлечь пары ключ-значение в массив / словарь. Я могу сделать это с большинством тегов, которые у меня есть в строке,...
180 просмотров

Создать матрицу nxn из pyspark datafame
Я новичок в pyspark. У меня есть набор текстовых данных 10k. Я создаю расстояние Жаккарда с помощью Minhash lsh. результат, который я получил, например, col1 col2 dist A B 0.77 B C 0.56 C A 0.88 Я хочу преобразовать...
49 просмотров
schedule 25.11.2021

PySpark: вычисление экспоненциальной скользящей средней
Я хочу рассчитать экспоненциальную скользящую среднюю единицы 9 Close в PySpark Ниже мои данные +---------+-------------------+--------+--------+--------+--------+ | Symbol| DateTime| Open| High| Low| Close|...
338 просмотров

Как эффективно соединить очень большой стол и большой стол в Pyspark
У меня две таблицы. Обе таблицы являются внешними таблицами в улье, хранящимися в формате данных паркета. Первая таблица table_1 содержит 250 миллионов строк ежедневно с 2015 года. Эта таблица разбита на разделы на основе create_date. Таким...
4351 просмотров

Другой способ передачи списка orderby в методе pyspark windows
У меня только что возникла проблема с выполнением оконной операции на фрейме данных pyspark. Я хочу получить последние записи из входной таблицы с указанным ниже условием, но хочу исключить цикл for: groupby_col = ["col('customer_id')"]...
32 просмотров

Чтение файлов json в разрешающем режиме - PySpark 2.3
У меня есть работа с данными для чтения кучи файлов json, где есть вероятность, что несколько строк json в некоторых файлах могут быть повреждены (недопустимый json). Ниже приведен код: df = spark.read \ .option("mode",...
54 просмотров

Невозможно обрезать пустое пространство в фрейме данных pyspark
При загрузке данных из Oracle и записи в PostgreSQL возникает странная проблема. Невозможно записать строку с пробелом в postgres. Столкнувшись с проблемой ниже Caused by: java.sql.BatchUpdateException: Batch entry 0 INSERT INTO...
86 просмотров

Загрузите файл json в искровой фрейм данных
Я пытаюсь загрузить следующий файл data.json в искровой фреймворк: {"positionmessage":{"callsign": "PPH1", "name": 0.0, "mmsi": 100}} {"positionmessage":{"callsign": "PPH2", "name": 0.0, "mmsi": 200}} {"positionmessage":{"callsign": "PPH3",...
38 просмотров
schedule 25.12.2021

изменение столбцов pyspark dataframe
У меня есть входной фрейм данных, как показано ниже, где входные столбцы являются динамическими, то есть это может быть число n - например, input1 для input2 +----+----+-------+------+------+ |dim1|dim2| byvar|input1|input2|...
89 просмотров

Преобразование столбца структуры PySpark DataFrame в строку пар ключ-значение
У меня есть структура с большим количеством пар ключ-значение: |-- struct_col: struct (nullable = false) | |-- key1: string (nullable = false) | |-- key2: string (nullable = false) | |-- key3: string (nullable = false) | |-- key4:...
227 просмотров

Производительность PySpark DataFrame / Vectors против Numpy Array
Мой проект включает в себя множество операций между массивами numpy и матрицами numpy, которые в настоящее время выполняются в UDF. Как вы думаете, если бы мы использовали внутренние структуры в PySpark, у нас было бы повышение производительности?...
142 просмотров

Проверить фрейм данных ASCII pyspark
Мне нужно проверить фрейм данных pyspark, если все значения являются ASCII, я делаю это следующим образом: def is_ascii(s): if s: return all(ord(c) < 128 for c in s) else: return None is_ascii_udf = udf(lambda l: is_ascii(l),...
168 просмотров

Pyspark как распаковать список списков в строковом формате
У меня есть фреймворк pyspark со столбцом, содержащим StructField строкового типа, который имеет список динамической длины списков. df.schema: StructType(List(StructField(id,StringType,true),StructField(recs,StringType,true))) |id | recs |...
122 просмотров

Pyspark: чтение вложенных столбцов из файла CSV и назначение схемы фрейму данных
Я попытался прочитать CSV-файл, содержащий вложенный столбец. Пример: name,age,addresses_values person_1,30,["France","street name",75000] При чтении я устал назначать такую ​​схему: csv_schema = StructType([...
159 просмотров

pyspark получает номер месяца, месяца, квартала и квартала из столбца фрейма данных
Я ввел два столбца с partner_id и month_id (в формате STRING - YYMM) partner_id|month_id| 1001 | 2001 | 1002 | 2002 | 1003 | 2003 | 1001 | 2004 | 1002 | 2005 | 1003 | 2006 | 1001 | 2007 | 1002...
305 просмотров

Pyspark groupby с udf: низкая производительность на локальной машине
Я пытаюсь провести некоторый анализ огромного набора данных, состоящего из нескольких ежедневных файлов по 15 ГБ каждый. Чтобы быть быстрее, просто для целей тестирования я создал очень небольшой набор данных, который включает все соответствующие...
35 просмотров
schedule 29.04.2022

Сумма по строкам для каждой группы и добавление итогов в виде новой строки в фрейме данных в Pyspark
У меня есть фреймворк, подобный этому образцу df = spark.createDataFrame( [(2, "A" , "A2" , 2500), (2, "A" , "A11" , 3500), (2, "A" , "A12" , 5500), (4, "B" ,...
130 просмотров

Как сохранить фрейм данных в файл json с многострочным вариантом в pyspark
В Pyspark я хочу сохранить фрейм данных как файл json, но в формате ниже Скажите, что это мой фрейм данных >>> rdd1.show() +----------+-----+ | f1| f2| +----------+-----+ |AAAAAAAAAA|99999| | BBBBBBBBB|99999| | CCCCCCCCC|99999|...
316 просмотров
schedule 25.05.2022