SparkSQL尝试从不存在的路径中读取数据

时间:2018-10-31 14:29:55

标签: apache-spark hive pyspark pyspark-sql parquet

我的pyspark sql模块有问题。我创建了一个分区表,并通过多次转换后运行spark作业将其作为镶木地板文件保存到hive表中。

数据已成功加载到配置单元中,并且还可以查询数据。但是,当我尝试从spark查询相同的数据时,它说文件路径不存在。

  

java.io.FileNotFoundException:文件hdfs:// localhost:8020 / data / path / of / partition partition = 15f244ee8f48a2f98539d9d319d49d9c不存在

以上错误中提到的分区是旧的分区列数据,现在甚至不存在。

我已经运行了spark作业,该作业会填充新的分区值。 我在寻找解决方案,但我只能看到人们说Spark 1.4版没有问题,而1.6版有问题

有人可以建议我解决这个问题的方法吗?

0 个答案:

没有答案