应用错误收集

自定义分区并在PySpark Hadoop中保留序列

时间：2019-05-06 04:40:28

标签： hadoop pyspark

在PySpark数据框中（200万* 7000）。在列中搜索关键字之后。我想要以上10条记录，然后跳过10条记录，然后再跳过下10条记录。但由于分区，我无法将索引放在确切的数据帧上。我知道通过XML Input格式可以实现。但不知道过程。请建议

0 个答案:

没有答案