Spark Standalone DROP TABLE不会删除HDFS文件

时间:2017-06-08 12:10:44

标签: apache-spark

使用Apache Spark 1.6.2版。当我们想要在本地针对远程集群中的数据进行调试时,我们当前在HDFS集群上运行spark standalone并使用以下代码连接到远程集群:

sparkConf.setMaster("spark://IPADDRESS:7077").set("spark.executor.memory", "4G")
sparkConf.setJars(Array(...))
System.setProperty("hive.metastore.uris","thrift://metastore:9083")

这适用于一个例外。出于某种原因,当我们在远程连接时删除表时,它不会删除HDFS上的表仓库文件(/apps/warehouse/database.db/table)。但是,如果我们直接在yarn集群中运行相同的作业而不是spark独立模式,它会删除表的HDFS文件。我没有在spark日志中看到任何明显的权限错误或类似内容。

有没有办法从独立的火花中获得相同的行为?

0 个答案:

没有答案