Вопросы по теме 'fastparquet'
Поддерживает ли какая-либо библиотека Python запись массивов структур в файлы Parquet?
Я хочу записать данные, в которых некоторые столбцы представляют собой массивы строк или массивы структур (обычно пары ключ-значение), в файл Parquet для использования в AWS Athena.
Найдя две библиотеки Python (Arrow и fastparquet), поддерживающие...
3256 просмотров
schedule
24.11.2021
Dask - Как отменить и повторно отправить зависшие задачи?
Часто я сталкиваюсь с проблемой, когда Dask случайным образом останавливается на нескольких задачах, обычно связанных с чтением данных с другого узла в моей сети (подробнее об этом ниже). Это может произойти после нескольких часов работы скрипта без...
542 просмотров
schedule
26.10.2021
Чтение файла Parquet со столбцом Array‹Map‹String,String››
Я использую Dask для чтения файла Parquet, созданного PySpark, и один из столбцов представляет собой список словарей (например, array<map<string,string>>' ). Примером df может быть:
import pandas as pd
df =...
6596 просмотров
schedule
25.06.2022
ошибка с мгновенным запуском при импорте fastparquet в python
Я установил следующие модули на свой сервер EC2, на котором уже установлены python (3.6) и anaconda:
резкий
пиарроу
s3fs
фастпарк
кроме fastparquet все остальное работает на импорт. Когда я пытаюсь импортировать fastparquet, возникает...
5491 просмотров
schedule
13.07.2022
Сохранение разделов фрейма данных dask при загрузке нескольких файлов паркета
У меня есть данные временного ряда в кадрах данных со временем в качестве индекса. Индекс сортируется, и данные хранятся в нескольких файлах паркета с данными за один день в каждом файле. Использую dask 2.9.1
При загрузке данных из одного...
429 просмотров
schedule
22.03.2023
Чтение / запись паркета с типом столбца Struct
Я пытаюсь написать такой Dataframe в Parquet:
| foo | bar |
|-----|-------------------|
| 1 | {"a": 1, "b": 10} |
| 2 | {"a": 2, "b": 20} |
| 3 | {"a": 3, "b": 30} |
Я делаю это с помощью Pandas и Fastparquet:
df =...
5770 просмотров
schedule
26.03.2023
Pandas читает / записывает данные паркета с использованием индекса столбца
Можно ли использовать pandas для выборочного чтения строк из файлов Parquet с использованием индекса столбца?
Точно так же при записи Pandas DataFrame в файл Parquet, например, с использованием pd.DataFrame.to_parquet() , можно ли указать...
573 просмотров
schedule
24.12.2022
RuntimeError: распаковка «SNAPPY» недоступна. Варианты: ['BROTLI', 'GZIP', 'UNCOMPRESSED'] (ошибка возникает только в .py, а не в .ipython)
Я получил эту ошибку, как в заголовке, при попытке прочитать файлы паркета с помощью fastparquet со следующими кодами:
from fastparquet import ParquetFile
pf = ParquetFile(myfile.parquet)
df = pf.to_pandas()
Я попробовал решения, предложенные в...
360 просмотров
schedule
29.10.2022
Генерация файлов паркета — различия между R и Python
Мы создали файл parquet в Dask (Python) и с Drill (R с использованием пакета Sergeant ). Мы заметили несколько проблем:
Формат Dask (то есть fastparquet ) содержит файлы _metadata и _common_metadata , в то время как файл parquet в...
472 просмотров
schedule
19.11.2023
Написание файла Parquet из нескольких процессов Python с использованием Dask
Возможно ли в Python записать одну и ту же папку Parquet из разных процессов?
Я использую fastparquet .
Кажется, это работает, но мне интересно, как это возможно, чтобы файл _metadata не имел конфликтов, если два процесса записывают в него...
273 просмотров
schedule
27.12.2023
Как открыть огромный файл паркета с помощью Pandas без достаточного количества оперативной памяти
Я пытаюсь прочитать прилично большой файл Parquet (~ 2 ГБ с примерно 30 миллионами строк) в свой блокнот Jupyter (в Python 3), используя функцию Pandas read_parquet . Я также установил библиотеки pyarrow и fastparquet , которые функция...
1917 просмотров
schedule
25.03.2024