Вопросы по теме 'dask-dataframe'

Dask: установка индекса для большого фрейма данных приводит к большому использованию дискового пространства во время обработки
Я работаю с большим набором данных (220 000 000 строк, ~ 25 ГБ в виде файлов csv), который хранится в виде нескольких файлов csv. Мне уже удалось прочитать эти csv с помощью Dask и сохранить данные в виде паркетного файла со следующим: import...
84 просмотров
schedule 07.11.2021

Использование set_index () в Dask Dataframe и запись в паркет вызывает взрыв памяти
У меня есть большой набор файлов Parquet, которые я пытаюсь отсортировать по столбцу. В несжатом виде данные составляют около 14 ГБ, поэтому Dask казался подходящим инструментом для работы. Все, что я делаю с Dask, это: Чтение паркетных файлов...
111 просмотров
schedule 16.03.2022

Фильтр Dask DataFrame и повторное разбиение дают несколько пустых разделов
Я пытаюсь отфильтровать Dask DataFrame , а затем использовать map_partitions для применения функции к каждому разделу. Функция ожидает панд DataFrame как минимум с 1 строкой. Вот код для генерации фиктивных данных в виде pandas DataFrame...
489 просмотров
schedule 07.04.2022

ValueError: невозможно переиндексировать с повторяющейся оси с использованием Dask DataFrame
Я пытался адаптировать свой код для использования Dask для использования нескольких машин для обработки. Хотя начальная загрузка данных не требует много времени, последующая обработка занимает около 12 часов на 8-ядерном i5. Это не идеально, и было...
35 просмотров
schedule 09.04.2022

Создание фрейма данных dask из отложенных массивов dask
У меня есть список отложенных массивов dask, хранящихся в dask_arr_ls , которые я хочу превратить в фрейм данных dask. Вот скелет моего конвейера: def simulate_device_data(num_id): # create data for unknown number of timestamps data_ls =...
92 просмотров
schedule 20.04.2022

Предсказание Autosklearn с использованием фрейма данных Dask / Поддержка Autosklearn для фреймов данных dask
Я обучил свою модель классификации Autosklearn, используя кадр данных pandas, и пытаюсь получить прогнозы, используя кадры данных dask из обученных моделей. Я протестировал с помощью кадра данных pandas и получил правильные прогнозы. Теперь мне...
72 просмотров
schedule 23.06.2022

Dask - преобразовать столбец отметки времени в дату и установить как индекс, убив процесс
Я новичок в Даске, У меня 152 паркетных файла в среднем 200 МБ (32 ГБ ОЗУ станка). В каждом файле есть столбец Timestamp, и я хочу сделать этот столбец разделом (индексом). Если я установил столбец Timestamp как индекс, будет слишком много...
22 просмотров
schedule 27.09.2022

Pandas или Dask dataframe, заполните значения на основе отсутствующих комбинаций переменных группировки
Кадры данных Dask и Pandas здесь могут не иметь значения, кроме отсутствия мультииндекса в Dask, но у меня есть кадр данных Dask, например: dd = pd.DataFrame({ 'name': ['a1', 'a1', 'a1', 'a1', 'a2', 'a2', 'a2'], 'key1': ['A', 'A', 'B',...
361 просмотров
schedule 28.11.2022

Можете ли вы случайным образом выбрать k значений из серии Даска?
Я хочу случайным образом выбирать значения k без замены из серии Dask, и я не хочу заранее вычислять длину серии. Если k больше длины серии, я хочу вернуть всю серию. Я пробовал образец функции серии dask , но он не может обрабатывать объект с...
260 просмотров
schedule 27.07.2023

Dask .loc только первый результат (iloc[0])
Образец кадра данных Dask: import pandas as pd import dask import dask.dataframe as dd df = pd.DataFrame({'col_1': [1,2,3,4,5,6,7], 'col_2': list('abcdefg')}, index=pd.Index([0,0,1,2,3,4,5])) df = dd.from_pandas(df,...
21 просмотров
schedule 26.07.2023

Способы создания списка из столбца данных Dask
Я хочу создать список/набор из столбца Dask Dataframe. По сути, я хочу использовать этот список для фильтрации строк в другом фрейме данных, сопоставляя значения со столбцом в этом фрейме данных. Я пытался использовать list(df[column]) и...
69 просмотров
schedule 13.10.2023

Вычислить скользящее среднее за последние n дней в Dask
Я пытаюсь вычислить скользящее среднее за последние n дней (с n = 30) для большого набора данных. В Pandas я бы использовал следующую команду: temp = chunk.groupby('id_code').apply(lambda x:...
332 просмотров
schedule 26.01.2024