我的pyspark scipt使用Impala表,从中读取并创建数据帧。 由于脚本运行时间更长,因此将替换基础实木复合地板文件。一旦发生这种情况,我就会收到错误消息。
java.io.FileNotFoundException: File/Folder does not exist: /xxx.parquet
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.
因此,我添加了spark.catalog.refreshTable('schema.table_name')
。
不幸的是,我得到了同样的错误。
有人有想法吗?
谢谢!