Статьи по теме dask-dataframe

Вопросы по теме 'dask-dataframe'

Dask: установка индекса для большого фрейма данных приводит к большому использованию дискового пространства во время обработки

Я работаю с большим набором данных (220 000 000 строк, ~ 25 ГБ в виде файлов csv), который хранится в виде нескольких файлов csv. Мне уже удалось прочитать эти csv с помощью Dask и сохранить данные в виде паркетного файла со следующим: import...

84 просмотров

07.11.2021

Использование set_index () в Dask Dataframe и запись в паркет вызывает взрыв памяти

У меня есть большой набор файлов Parquet, которые я пытаюсь отсортировать по столбцу. В несжатом виде данные составляют около 14 ГБ, поэтому Dask казался подходящим инструментом для работы. Все, что я делаю с Dask, это: Чтение паркетных файлов...

111 просмотров

python dask dask-dataframe

16.03.2022

Фильтр Dask DataFrame и повторное разбиение дают несколько пустых разделов

Я пытаюсь отфильтровать Dask DataFrame , а затем использовать map_partitions для применения функции к каждому разделу. Функция ожидает панд DataFrame как минимум с 1 строкой. Вот код для генерации фиктивных данных в виде pandas DataFrame...

489 просмотров

python dataframe dask dask-dataframe

07.04.2022

ValueError: невозможно переиндексировать с повторяющейся оси с использованием Dask DataFrame

Я пытался адаптировать свой код для использования Dask для использования нескольких машин для обработки. Хотя начальная загрузка данных не требует много времени, последующая обработка занимает около 12 часов на 8-ядерном i5. Это не идеально, и было...

35 просмотров

python pandas dask dask-dataframe

09.04.2022

Создание фрейма данных dask из отложенных массивов dask

У меня есть список отложенных массивов dask, хранящихся в dask_arr_ls , которые я хочу превратить в фрейм данных dask. Вот скелет моего конвейера: def simulate_device_data(num_id): # create data for unknown number of timestamps data_ls =...

92 просмотров

dask dask-dataframe dask-delayed

20.04.2022

Предсказание Autosklearn с использованием фрейма данных Dask / Поддержка Autosklearn для фреймов данных dask

Я обучил свою модель классификации Autosklearn, используя кадр данных pandas, и пытаюсь получить прогнозы, используя кадры данных dask из обученных моделей. Я протестировал с помощью кадра данных pandas и получил правильные прогнозы. Теперь мне...

72 просмотров

dataframe automl dask dask-dataframe

23.06.2022

Dask - преобразовать столбец отметки времени в дату и установить как индекс, убив процесс

Я новичок в Даске, У меня 152 паркетных файла в среднем 200 МБ (32 ГБ ОЗУ станка). В каждом файле есть столбец Timestamp, и я хочу сделать этот столбец разделом (индексом). Если я установил столбец Timestamp как индекс, будет слишком много...

22 просмотров

dask dask-dataframe

27.09.2022

Pandas или Dask dataframe, заполните значения на основе отсутствующих комбинаций переменных группировки

Кадры данных Dask и Pandas здесь могут не иметь значения, кроме отсутствия мультииндекса в Dask, но у меня есть кадр данных Dask, например: dd = pd.DataFrame({ 'name': ['a1', 'a1', 'a1', 'a1', 'a2', 'a2', 'a2'], 'key1': ['A', 'A', 'B',...

361 просмотров

python pandas dataframe dask dask-dataframe

28.11.2022

Можете ли вы случайным образом выбрать k значений из серии Даска?

Я хочу случайным образом выбирать значения k без замены из серии Dask, и я не хочу заранее вычислять длину серии. Если k больше длины серии, я хочу вернуть всю серию. Я пробовал образец функции серии dask , но он не может обрабатывать объект с...

260 просмотров

python dask dask-dataframe

27.07.2023

Dask .loc только первый результат (iloc[0])

Образец кадра данных Dask: import pandas as pd import dask import dask.dataframe as dd df = pd.DataFrame({'col_1': [1,2,3,4,5,6,7], 'col_2': list('abcdefg')}, index=pd.Index([0,0,1,2,3,4,5])) df = dd.from_pandas(df,...

21 просмотров

pandas dask dask-dataframe

26.07.2023

Способы создания списка из столбца данных Dask

Я хочу создать список/набор из столбца Dask Dataframe. По сути, я хочу использовать этот список для фильтрации строк в другом фрейме данных, сопоставляя значения со столбцом в этом фрейме данных. Я пытался использовать list(df[column]) и...

69 просмотров

python dask dask-dataframe

13.10.2023

Вычислить скользящее среднее за последние n дней в Dask

Я пытаюсь вычислить скользящее среднее за последние n дней (с n = 30) для большого набора данных. В Pandas я бы использовал следующую команду: temp = chunk.groupby('id_code').apply(lambda x:...

332 просмотров

python pandas dask dask-dataframe

26.01.2024