Vaex Отображение данных

У меня есть CSV-файл размером 10,11 ГБ, и я преобразовал его в hdf5 с помощью dask. Это смесь значений str, int и float. Когда я пытаюсь прочитать его с помощью vaex, я просто получаю числа, как показано на скриншоте. Кто-нибудь может мне помочь?

Снимок экрана:

введите описание изображения здесь


person Dhruva Sundararajan    schedule 21.07.2020    source источник


Ответы (1)


Я не уверен, как dask (или dask.dataframe) хранит данные в формате HDF5. Pandas, например, хранит данные в строковом формате. С другой стороны, vaex ожидает файлов HDF5 на основе столбцов.

Из вашего скриншота я вижу, что ваш файл hdf5 также сохраняет столбец индекса - vaex не имеет такого столбца и ожидает только данные.

Чтобы файлы HDF5 работали с vaex, лучше всего использовать сам vaex для преобразования CSV- ›HDF5. В противном случае, возможно, что-то вроде стрелки будет работать, поскольку это стандарт (в то время как HDF5 может быть более гибким, и от этого сложнее поддерживать все возможные версии хранения данных).

person Joco    schedule 05.08.2020