Вопросы по теме 'pyspark-dataframes'
как получить максимальную дату из ряда в pyspark
from pyspark.sql.window import Window
from pyspark.sql import functions as F
maxcol = func.udf(lambda row: F.max(row))
temp = [(("ID1", '2019-01-01', '2019-02-01')), (("ID2", '2018-01-01', '2019-05-01')), (("ID3", '2019-06-01', '2019-04-01'))]
t1 =...
65 просмотров
schedule
18.11.2021
Как лучше всего объединить несколько таблиц соединений jdbc в Spark?
Я пытаюсь перенести запрос в pyspark, и мне нужно объединить в нем несколько таблиц. Все рассматриваемые таблицы находятся в Redshift, и я использую соединитель jdbc, чтобы общаться с ними.
Моя проблема в том, как сделать эти соединения...
821 просмотров
schedule
07.11.2021
Pyspark - итерация по строке для извлечения нескольких пар ключ-значение
В настоящее время у меня есть текстовая строка, разделенная амперсандом, которую мне нужно проанализировать с помощью PySpark, чтобы извлечь пары ключ-значение в массив / словарь. Я могу сделать это с большинством тегов, которые у меня есть в строке,...
180 просмотров
schedule
23.11.2021
Создать матрицу nxn из pyspark datafame
Я новичок в pyspark. У меня есть набор текстовых данных 10k. Я создаю расстояние Жаккарда с помощью Minhash lsh. результат, который я получил, например,
col1 col2 dist
A B 0.77
B C 0.56
C A 0.88
Я хочу преобразовать...
49 просмотров
schedule
25.11.2021
PySpark: вычисление экспоненциальной скользящей средней
Я хочу рассчитать экспоненциальную скользящую среднюю единицы 9 Close в PySpark
Ниже мои данные
+---------+-------------------+--------+--------+--------+--------+
| Symbol| DateTime| Open| High| Low| Close|...
338 просмотров
schedule
10.09.2021
Как эффективно соединить очень большой стол и большой стол в Pyspark
У меня две таблицы. Обе таблицы являются внешними таблицами в улье, хранящимися в формате данных паркета.
Первая таблица table_1 содержит 250 миллионов строк ежедневно с 2015 года. Эта таблица разбита на разделы на основе create_date. Таким...
4351 просмотров
schedule
09.10.2021
Другой способ передачи списка orderby в методе pyspark windows
У меня только что возникла проблема с выполнением оконной операции на фрейме данных pyspark. Я хочу получить последние записи из входной таблицы с указанным ниже условием, но хочу исключить цикл for:
groupby_col = ["col('customer_id')"]...
32 просмотров
schedule
07.09.2021
Чтение файлов json в разрешающем режиме - PySpark 2.3
У меня есть работа с данными для чтения кучи файлов json, где есть вероятность, что несколько строк json в некоторых файлах могут быть повреждены (недопустимый json). Ниже приведен код:
df = spark.read \
.option("mode",...
54 просмотров
schedule
02.12.2021
Невозможно обрезать пустое пространство в фрейме данных pyspark
При загрузке данных из Oracle и записи в PostgreSQL возникает странная проблема. Невозможно записать строку с пробелом в postgres. Столкнувшись с проблемой ниже
Caused by: java.sql.BatchUpdateException: Batch entry 0 INSERT INTO...
86 просмотров
schedule
06.09.2021
Загрузите файл json в искровой фрейм данных
Я пытаюсь загрузить следующий файл data.json в искровой фреймворк:
{"positionmessage":{"callsign": "PPH1", "name": 0.0, "mmsi": 100}}
{"positionmessage":{"callsign": "PPH2", "name": 0.0, "mmsi": 200}}
{"positionmessage":{"callsign": "PPH3",...
38 просмотров
schedule
25.12.2021
изменение столбцов pyspark dataframe
У меня есть входной фрейм данных, как показано ниже, где входные столбцы являются динамическими, то есть это может быть число n - например, input1 для input2
+----+----+-------+------+------+
|dim1|dim2| byvar|input1|input2|...
89 просмотров
schedule
19.02.2022
Преобразование столбца структуры PySpark DataFrame в строку пар ключ-значение
У меня есть структура с большим количеством пар ключ-значение:
|-- struct_col: struct (nullable = false)
| |-- key1: string (nullable = false)
| |-- key2: string (nullable = false)
| |-- key3: string (nullable = false)
| |-- key4:...
227 просмотров
schedule
27.02.2022
Производительность PySpark DataFrame / Vectors против Numpy Array
Мой проект включает в себя множество операций между массивами numpy и матрицами numpy, которые в настоящее время выполняются в UDF. Как вы думаете, если бы мы использовали внутренние структуры в PySpark, у нас было бы повышение производительности?...
142 просмотров
schedule
05.03.2022
Проверить фрейм данных ASCII pyspark
Мне нужно проверить фрейм данных pyspark, если все значения являются ASCII, я делаю это следующим образом:
def is_ascii(s):
if s:
return all(ord(c) < 128 for c in s)
else:
return None
is_ascii_udf = udf(lambda l: is_ascii(l),...
168 просмотров
schedule
09.03.2022
Pyspark как распаковать список списков в строковом формате
У меня есть фреймворк pyspark со столбцом, содержащим StructField строкового типа, который имеет список динамической длины списков.
df.schema: StructType(List(StructField(id,StringType,true),StructField(recs,StringType,true)))
|id | recs |...
122 просмотров
schedule
13.03.2022
Pyspark: чтение вложенных столбцов из файла CSV и назначение схемы фрейму данных
Я попытался прочитать CSV-файл, содержащий вложенный столбец.
Пример:
name,age,addresses_values
person_1,30,["France","street name",75000]
При чтении я устал назначать такую схему:
csv_schema = StructType([...
159 просмотров
schedule
29.03.2022
pyspark получает номер месяца, месяца, квартала и квартала из столбца фрейма данных
Я ввел два столбца с partner_id и month_id (в формате STRING - YYMM)
partner_id|month_id|
1001 | 2001 |
1002 | 2002 |
1003 | 2003 |
1001 | 2004 |
1002 | 2005 |
1003 | 2006 |
1001 | 2007 |
1002...
305 просмотров
schedule
16.04.2022
Pyspark groupby с udf: низкая производительность на локальной машине
Я пытаюсь провести некоторый анализ огромного набора данных, состоящего из нескольких ежедневных файлов по 15 ГБ каждый. Чтобы быть быстрее, просто для целей тестирования я создал очень небольшой набор данных, который включает все соответствующие...
35 просмотров
schedule
29.04.2022
Сумма по строкам для каждой группы и добавление итогов в виде новой строки в фрейме данных в Pyspark
У меня есть фреймворк, подобный этому образцу
df = spark.createDataFrame(
[(2, "A" , "A2" , 2500),
(2, "A" , "A11" , 3500),
(2, "A" , "A12" , 5500),
(4, "B" ,...
130 просмотров
schedule
09.05.2022
Как сохранить фрейм данных в файл json с многострочным вариантом в pyspark
В Pyspark я хочу сохранить фрейм данных как файл json, но в формате ниже
Скажите, что это мой фрейм данных
>>> rdd1.show()
+----------+-----+
| f1| f2|
+----------+-----+
|AAAAAAAAAA|99999|
| BBBBBBBBB|99999|
| CCCCCCCCC|99999|...
316 просмотров
schedule
25.05.2022