应用错误收集

如何使用pyspark从hdfs删除特定分区？

时间：2018-08-08 06:00:30

标签： pyspark hdfs partitioning

我计划从目标中删除特定分区的原因是，我有一个DF，其中包含目标路径中分区的数据以及新分区。

如果我从目标路径中删除了那些特定的分区，则只需分区即可写入整个DF。

另一种方法是，对每个分区以覆盖模式写入数据。

还有其他有效的方法吗？或如何使用pyspark从HDFS路径中删除特定分区？

更新：我正在阅读本文，使用hdfs模块直接执行subprocess命令似乎很有趣。

http://www.learn4master.com/big-data/hadoop/run-hadoop-command-in-python

0 个答案:

没有答案