Как записать данные в фрейм данных в один файл .parquet (как данные, так и метаданные в одном файле) в HDFS?
df.show() --> 2 rows
+------+--------------+----------------+
| name|favorite_color|favorite_numbers|
+------+--------------+----------------+
|Alyssa| null| [3, 9, 15, 20]| | Ben| red| []|
+------+--------------+----------------+
df.rdd.getNumPartitions()
- имеет 1 раздел
>>> df.rdd.getNumPartitions()
1
df.write.save("/user/hduser/data_check/test.parquet", format="parquet")
Если я использую указанную выше команду для создания файла паркета в HDFS, он создает каталог "payloads.parquet"
в HDFS
, а внутри этого каталога сохраняется несколько файлов .parquet
file, файл метаданных.
Найдено 4 объекта
-rw-r--r-- 3 bimodjoul biusers 0 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_SUCCESS
-rw-r--r-- 3 bimodjoul biusers 494 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_common_metadata
-rw-r--r-- 3 bimodjoul biusers 862 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_metadata
-rw-r--r-- 3 bimodjoul biusers 885 2017-03-15 06:47
/user/hduser/data_check/test.parquet/part-r-00000-f83a2ffd-38bb-4c76-9f4c-357e43d9708b.gz.parquet
Как записать данные в фрейме данных в один .parquet
файл (как данные, так и метаданные в одном файле) в HDFS
, а не в папку с несколькими файлами?
Помощь будет очень признательна.