如何使用pyspark从hdfs删除特定分区?

时间:2018-08-08 06:00:30

标签: pyspark hdfs partitioning

我计划从目标中删除特定分区的原因是,我有一个DF,其中包含目标路径中分区的数据以及新分区。

如果我从目标路径中删除了那些特定的分区,则只需分区即可写入整个DF。

另一种方法是,对每个分区以覆盖模式写入数据。

还有其他有效的方法吗?或如何使用pyspark从HDFS路径中删除特定分区?

更新: 我正在阅读本文,使用hdfs模块直接执行subprocess命令似乎很有趣。

http://www.learn4master.com/big-data/hadoop/run-hadoop-command-in-python

0 个答案:

没有答案