Вопросы по теме 'dask-dataframe'
Dask: установка индекса для большого фрейма данных приводит к большому использованию дискового пространства во время обработки
Я работаю с большим набором данных (220 000 000 строк, ~ 25 ГБ в виде файлов csv), который хранится в виде нескольких файлов csv.
Мне уже удалось прочитать эти csv с помощью Dask и сохранить данные в виде паркетного файла со следующим:
import...
84 просмотров
schedule
07.11.2021
Использование set_index () в Dask Dataframe и запись в паркет вызывает взрыв памяти
У меня есть большой набор файлов Parquet, которые я пытаюсь отсортировать по столбцу. В несжатом виде данные составляют около 14 ГБ, поэтому Dask казался подходящим инструментом для работы. Все, что я делаю с Dask, это:
Чтение паркетных файлов...
111 просмотров
schedule
16.03.2022
Фильтр Dask DataFrame и повторное разбиение дают несколько пустых разделов
Я пытаюсь отфильтровать Dask DataFrame , а затем использовать map_partitions для применения функции к каждому разделу. Функция ожидает панд DataFrame как минимум с 1 строкой.
Вот код для генерации фиктивных данных в виде pandas DataFrame...
489 просмотров
schedule
07.04.2022
ValueError: невозможно переиндексировать с повторяющейся оси с использованием Dask DataFrame
Я пытался адаптировать свой код для использования Dask для использования нескольких машин для обработки. Хотя начальная загрузка данных не требует много времени, последующая обработка занимает около 12 часов на 8-ядерном i5. Это не идеально, и было...
35 просмотров
schedule
09.04.2022
Создание фрейма данных dask из отложенных массивов dask
У меня есть список отложенных массивов dask, хранящихся в dask_arr_ls , которые я хочу превратить в фрейм данных dask. Вот скелет моего конвейера:
def simulate_device_data(num_id):
# create data for unknown number of timestamps
data_ls =...
92 просмотров
schedule
20.04.2022
Предсказание Autosklearn с использованием фрейма данных Dask / Поддержка Autosklearn для фреймов данных dask
Я обучил свою модель классификации Autosklearn, используя кадр данных pandas, и пытаюсь получить прогнозы, используя кадры данных dask из обученных моделей.
Я протестировал с помощью кадра данных pandas и получил правильные прогнозы. Теперь мне...
72 просмотров
schedule
23.06.2022
Dask - преобразовать столбец отметки времени в дату и установить как индекс, убив процесс
Я новичок в Даске,
У меня 152 паркетных файла в среднем 200 МБ (32 ГБ ОЗУ станка).
В каждом файле есть столбец Timestamp, и я хочу сделать этот столбец разделом (индексом).
Если я установил столбец Timestamp как индекс, будет слишком много...
22 просмотров
schedule
27.09.2022
Pandas или Dask dataframe, заполните значения на основе отсутствующих комбинаций переменных группировки
Кадры данных Dask и Pandas здесь могут не иметь значения, кроме отсутствия мультииндекса в Dask, но у меня есть кадр данных Dask, например:
dd = pd.DataFrame({
'name': ['a1', 'a1', 'a1', 'a1', 'a2', 'a2', 'a2'],
'key1': ['A', 'A', 'B',...
361 просмотров
schedule
28.11.2022
Можете ли вы случайным образом выбрать k значений из серии Даска?
Я хочу случайным образом выбирать значения k без замены из серии Dask, и я не хочу заранее вычислять длину серии. Если k больше длины серии, я хочу вернуть всю серию.
Я пробовал образец функции серии dask , но он не может обрабатывать объект с...
260 просмотров
schedule
27.07.2023
Dask .loc только первый результат (iloc[0])
Образец кадра данных Dask:
import pandas as pd
import dask
import dask.dataframe as dd
df = pd.DataFrame({'col_1': [1,2,3,4,5,6,7], 'col_2': list('abcdefg')},
index=pd.Index([0,0,1,2,3,4,5]))
df = dd.from_pandas(df,...
21 просмотров
schedule
26.07.2023
Способы создания списка из столбца данных Dask
Я хочу создать список/набор из столбца Dask Dataframe. По сути, я хочу использовать этот список для фильтрации строк в другом фрейме данных, сопоставляя значения со столбцом в этом фрейме данных. Я пытался использовать list(df[column]) и...
69 просмотров
schedule
13.10.2023
Вычислить скользящее среднее за последние n дней в Dask
Я пытаюсь вычислить скользящее среднее за последние n дней (с n = 30) для большого набора данных. В Pandas я бы использовал следующую команду:
temp = chunk.groupby('id_code').apply(lambda x:...
332 просмотров
schedule
26.01.2024