Вопросы по теме 'fastparquet'

Поддерживает ли какая-либо библиотека Python запись массивов структур в файлы Parquet?
Я хочу записать данные, в которых некоторые столбцы представляют собой массивы строк или массивы структур (обычно пары ключ-значение), в файл Parquet для использования в AWS Athena. Найдя две библиотеки Python (Arrow и fastparquet), поддерживающие...
3256 просмотров
schedule 24.11.2021

Dask - Как отменить и повторно отправить зависшие задачи?
Часто я сталкиваюсь с проблемой, когда Dask случайным образом останавливается на нескольких задачах, обычно связанных с чтением данных с другого узла в моей сети (подробнее об этом ниже). Это может произойти после нескольких часов работы скрипта без...
542 просмотров

Чтение файла Parquet со столбцом Array‹Map‹String,String››
Я использую Dask для чтения файла Parquet, созданного PySpark, и один из столбцов представляет собой список словарей (например, array<map<string,string>>' ). Примером df может быть: import pandas as pd df =...
6596 просмотров
schedule 25.06.2022

ошибка с мгновенным запуском при импорте fastparquet в python
Я установил следующие модули на свой сервер EC2, на котором уже установлены python (3.6) и anaconda: резкий пиарроу s3fs фастпарк кроме fastparquet все остальное работает на импорт. Когда я пытаюсь импортировать fastparquet, возникает...
5491 просмотров
schedule 13.07.2022

Сохранение разделов фрейма данных dask при загрузке нескольких файлов паркета
У меня есть данные временного ряда в кадрах данных со временем в качестве индекса. Индекс сортируется, и данные хранятся в нескольких файлах паркета с данными за один день в каждом файле. Использую dask 2.9.1 При загрузке данных из одного...
429 просмотров
schedule 22.03.2023

Чтение / запись паркета с типом столбца Struct
Я пытаюсь написать такой Dataframe в Parquet: | foo | bar | |-----|-------------------| | 1 | {"a": 1, "b": 10} | | 2 | {"a": 2, "b": 20} | | 3 | {"a": 3, "b": 30} | Я делаю это с помощью Pandas и Fastparquet: df =...
5770 просмотров

Pandas читает / записывает данные паркета с использованием индекса столбца
Можно ли использовать pandas для выборочного чтения строк из файлов Parquet с использованием индекса столбца? Точно так же при записи Pandas DataFrame в файл Parquet, например, с использованием pd.DataFrame.to_parquet() , можно ли указать...
573 просмотров
schedule 24.12.2022

RuntimeError: распаковка «SNAPPY» недоступна. Варианты: ['BROTLI', 'GZIP', 'UNCOMPRESSED'] (ошибка возникает только в .py, а не в .ipython)
Я получил эту ошибку, как в заголовке, при попытке прочитать файлы паркета с помощью fastparquet со следующими кодами: from fastparquet import ParquetFile pf = ParquetFile(myfile.parquet) df = pf.to_pandas() Я попробовал решения, предложенные в...
360 просмотров
schedule 29.10.2022

Генерация файлов паркета — различия между R и Python
Мы создали файл parquet в Dask (Python) и с Drill (R с использованием пакета Sergeant ). Мы заметили несколько проблем: Формат Dask (то есть fastparquet ) содержит файлы _metadata и _common_metadata , в то время как файл parquet в...
472 просмотров
schedule 19.11.2023

Написание файла Parquet из нескольких процессов Python с использованием Dask
Возможно ли в Python записать одну и ту же папку Parquet из разных процессов? Я использую fastparquet . Кажется, это работает, но мне интересно, как это возможно, чтобы файл _metadata не имел конфликтов, если два процесса записывают в него...
273 просмотров
schedule 27.12.2023

Как открыть огромный файл паркета с помощью Pandas без достаточного количества оперативной памяти
Я пытаюсь прочитать прилично большой файл Parquet (~ 2 ГБ с примерно 30 миллионами строк) в свой блокнот Jupyter (в Python 3), используя функцию Pandas read_parquet . Я также установил библиотеки pyarrow и fastparquet , которые функция...
1917 просмотров
schedule 25.03.2024