Статьи по теме fastparquet

Вопросы по теме 'fastparquet'

Поддерживает ли какая-либо библиотека Python запись массивов структур в файлы Parquet?

Я хочу записать данные, в которых некоторые столбцы представляют собой массивы строк или массивы структур (обычно пары ключ-значение), в файл Parquet для использования в AWS Athena. Найдя две библиотеки Python (Arrow и fastparquet), поддерживающие...

3256 просмотров

24.11.2021

Dask - Как отменить и повторно отправить зависшие задачи?

Часто я сталкиваюсь с проблемой, когда Dask случайным образом останавливается на нескольких задачах, обычно связанных с чтением данных с другого узла в моей сети (подробнее об этом ниже). Это может произойти после нескольких часов работы скрипта без...

542 просмотров

python-3.x dask fastparquet dask-distributed dask-delayed

26.10.2021

Чтение файла Parquet со столбцом Array‹Map‹String,String››

Я использую Dask для чтения файла Parquet, созданного PySpark, и один из столбцов представляет собой список словарей (например, array<map<string,string>>' ). Примером df может быть: import pandas as pd df =...

6596 просмотров

python python-3.7 pyarrow dask fastparquet

25.06.2022

ошибка с мгновенным запуском при импорте fastparquet в python

Я установил следующие модули на свой сервер EC2, на котором уже установлены python (3.6) и anaconda: резкий пиарроу s3fs фастпарк кроме fastparquet все остальное работает на импорт. Когда я пытаюсь импортировать fastparquet, возникает...

5491 просмотров

python conda anaconda snappy fastparquet

13.07.2022

Сохранение разделов фрейма данных dask при загрузке нескольких файлов паркета

У меня есть данные временного ряда в кадрах данных со временем в качестве индекса. Индекс сортируется, и данные хранятся в нескольких файлах паркета с данными за один день в каждом файле. Использую dask 2.9.1 При загрузке данных из одного...

429 просмотров

python dataframe dask fastparquet

22.03.2023

Чтение / запись паркета с типом столбца Struct

Я пытаюсь написать такой Dataframe в Parquet: | foo | bar | |-----|-------------------| | 1 | {"a": 1, "b": 10} | | 2 | {"a": 2, "b": 20} | | 3 | {"a": 3, "b": 30} | Я делаю это с помощью Pandas и Fastparquet: df =...

5770 просмотров

apache-spark pyspark pyarrow apache-spark-sql fastparquet

26.03.2023

Pandas читает / записывает данные паркета с использованием индекса столбца

Можно ли использовать pandas для выборочного чтения строк из файлов Parquet с использованием индекса столбца? Точно так же при записи Pandas DataFrame в файл Parquet, например, с использованием pd.DataFrame.to_parquet() , можно ли указать...

573 просмотров

python pandas parquet pyarrow fastparquet

24.12.2022

RuntimeError: распаковка «SNAPPY» недоступна. Варианты: ['BROTLI', 'GZIP', 'UNCOMPRESSED'] (ошибка возникает только в .py, а не в .ipython)

Я получил эту ошибку, как в заголовке, при попытке прочитать файлы паркета с помощью fastparquet со следующими кодами: from fastparquet import ParquetFile pf = ParquetFile(myfile.parquet) df = pf.to_pandas() Я попробовал решения, предложенные в...

360 просмотров

python snappy fastparquet

29.10.2022

Генерация файлов паркета — различия между R и Python

Мы создали файл parquet в Dask (Python) и с Drill (R с использованием пакета Sergeant ). Мы заметили несколько проблем: Формат Dask (то есть fastparquet ) содержит файлы _metadata и _common_metadata , в то время как файл parquet в...

472 просмотров

r parquet dask fastparquet apache-drill

19.11.2023

Написание файла Parquet из нескольких процессов Python с использованием Dask

Возможно ли в Python записать одну и ту же папку Parquet из разных процессов? Я использую fastparquet . Кажется, это работает, но мне интересно, как это возможно, чтобы файл _metadata не имел конфликтов, если два процесса записывают в него...

273 просмотров

parquet dask fastparquet

27.12.2023

Как открыть огромный файл паркета с помощью Pandas без достаточного количества оперативной памяти

Я пытаюсь прочитать прилично большой файл Parquet (~ 2 ГБ с примерно 30 миллионами строк) в свой блокнот Jupyter (в Python 3), используя функцию Pandas read_parquet . Я также установил библиотеки pyarrow и fastparquet , которые функция...

1917 просмотров

python pandas parquet pyarrow fastparquet

25.03.2024