我想知道你们中是否有人遇到过同样的问题。基本上我按照https://spark.apache.org/docs/2.3.1/running-on-kubernetes.html在Kubernetes上运行一些Spark作业。
镶木地板的INSERT OVERWRITE似乎存在一些问题。基本上,它会引发错误
2019-01-17 10:55:53 INFO DAGScheduler:54 - Job 1 finished: saveAsTable at test_job.scala:444, took 6.967624 s
Exception in thread "main" org.apache.spark.sql.AnalysisException: Can not create the managed table('`schema`.`table`'). The associated location('maprfs:/datalake/schema.db/table') already exists.;
在插入之前,它似乎没有删除表。我正试图为此找到任何错误,但是找不到它。
当我在YARN上运行相同的作业时,则可以正常工作。
这是我在Spark 2.4.0上执行的代码
{
df
.write
.mode("Overwrite")
.format("parquet")
.saveAsTable(s"schema.table")
}