标签: hadoop pyspark
在PySpark数据框中(200万* 7000)。在列中搜索关键字之后。我想要以上10条记录,然后跳过10条记录,然后再跳过下10条记录。但由于分区,我无法将索引放在确切的数据帧上。我知道通过XML Input格式可以实现。但不知道过程。请建议