我正面临困境。我正在尝试使用spark-sql 2.3.1从oracle读取并在镶木地板文件中写入hdfs文件夹。以下是我的代码段:
df.write.format("parquet")
.mode("overwrite")
.partitionBy(partitionColumn)
.save(parquet_file)
当我在本地运行此代码时,它工作正常,但是当我在apache-spark集群上运行该代码时,则不会在目标文件夹中产生任何结果。
不知道丢失了什么,但是我没有在日志中看到任何错误。有趣的是,当我减少oracle表的记录数时,它正在按预期方式生成文件夹。如何解决这个问题呢?