Я хочу прочитать набор данных из каталога S3, внести некоторые обновления и перезаписать его в тот же файл. Что я делаю:
dataSetWriter.writeDf(
finalDataFrame,
destinationPath,
destinationFormat,
SaveMode.Overwrite,
destinationCompression)
Однако в моей работе не отображается сообщение об ошибке:
java.io.FileNotFoundException: No such file or directory 's3://processed/fullTableUpdated.parquet/part-00503-2b642173-540d-4c7a-a29a-7d0ae598ea4a-c000.parquet'
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.
Почему это происходит? Что мне не хватает в режиме "перезаписи"?
спасибо