自定义分区并在PySpark Hadoop中保留序列

时间:2019-05-06 04:40:28

标签: hadoop pyspark

在PySpark数据框中(200万* 7000)。在列中搜索关键字之后。我想要以上10条记录,然后跳过10条记录,然后再跳过下10条记录。但由于分区,我无法将索引放在确切的数据帧上。我知道通过XML Input格式可以实现。但不知道过程。请建议

0 个答案:

没有答案