Разделение очень больших файлов csv на файлы меньшего размера

Подходит ли Dask для параллельного чтения больших CSV-файлов и разделения их на несколько файлов меньшего размера?

python dask dask-delayed

Nutsa Nazgaidze 27.11.2019 источник

Ответы (2)

arrow_upward
0
arrow_downward

Да, dask может читать большие файлы CSV. Он разделит их на куски

df = dd.read_csv("/path/to/myfile.csv")

Затем при сохранении Dask всегда сохраняет данные CSV в несколько файлов.

df.to_csv("/output/path/*.csv")

Дополнительную информацию об этом см. в строках документации read_csv и to_csv.

MRocklin 29.11.2019

arrow_upward
1
arrow_downward

Привет, Нуца Назгайде и добро пожаловать на SO. Прежде всего, я бы посоветовал вам прочитать о как спрашивать и mcve. ваш вопрос достаточно хорош, но было бы здорово создать образец вашего исходного фрейма данных. Я собираюсь создать базовый фрейм данных, но в вашем случае логика не должна сильно отличаться, так как вам просто нужно учитывать местоположение.

Создать кадр данных

import dask.dataframe as dd
import numpy as np
import pandas as pd
import string

letters = list(string.ascii_lowercase)

N = int(1e6)
df = pd.DataFrame({"member":np.random.choice(letters, N),
                   "values":np.random.rand(N)})

df.to_csv("file.csv", index=False)

Один `parquet` файл (папка) на каждого участника

Если вы довольны выводом в формате parquet, вы можете просто использовать параметр partition_on как

df = dd.read_csv("file.csv")
df.to_parquet("output", partition_on="member")

Если вам действительно нужен csv, вы можете конвертировать в этот формат. Я настоятельно рекомендую вам перенести ваши данные на parquet.

rpanai 27.11.2019

Вопросы по теме

eventReactive с 2 кнопками действий на 2 вкладках
Добавить результат в TestCaseSource
три столбца в одну дату
Как открыть URL-адрес в WebView через .js в создателе кокосов
Highchart GMT и смещение в один час
проблема с отключением дат в datepicker
Получить описание текущего шага, вызываемого из файла BDD
журнал данных ракетки - журнал данных с отрицанием?
Не удается проиндексировать массив int RavenDB
Как использовать команду Scaffold-DbContext в VS Code
Взрывающийся градиент тензорного потока
Итерация по столбцу фрейма данных pandas и оценка с помощью оператора if и передача значений столбца в пустой список/словарь
Заполнить таблицу данных; Неверный ответ JSON
Получить точное время для удаленного сервера
Сбор элементов в массиве JSON
Динамический компонент круговой диаграммы D3 в Angular
Данные о пользовательских событиях в Firebase Events
Laravel 5.2 - проблема с веб-сервисами
Как повернуть трехмерный график в Matplotlib вокруг любой оси
Представление класса базы данных Java SQL

Разделение очень больших файлов csv на файлы меньшего размера

Ответы (2)

Создать кадр данных

Один parquet файл (папка) на каждого участника

Вопросы по теме

Один `parquet` файл (папка) на каждого участника