我的pyspark sql模块有问题。我创建了一个分区表,并通过多次转换后运行spark作业将其作为镶木地板文件保存到hive表中。
数据已成功加载到配置单元中,并且还可以查询数据。但是,当我尝试从spark查询相同的数据时,它说文件路径不存在。
java.io.FileNotFoundException:文件hdfs:// localhost:8020 / data / path / of / partition partition = 15f244ee8f48a2f98539d9d319d49d9c不存在
以上错误中提到的分区是旧的分区列数据,现在甚至不存在。
我已经运行了spark作业,该作业会填充新的分区值。 我在寻找解决方案,但我只能看到人们说Spark 1.4版没有问题,而1.6版有问题
有人可以建议我解决这个问题的方法吗?