我计划从目标中删除特定分区的原因是,我有一个DF,其中包含目标路径中分区的数据以及新分区。
如果我从目标路径中删除了那些特定的分区,则只需分区即可写入整个DF。
另一种方法是,对每个分区以覆盖模式写入数据。
还有其他有效的方法吗?或如何使用pyspark从HDFS路径中删除特定分区?
更新:
我正在阅读本文,使用hdfs
模块直接执行subprocess
命令似乎很有趣。
http://www.learn4master.com/big-data/hadoop/run-hadoop-command-in-python