Question

我正在测试缺失数据的分类器，并希望随机删除Spark中的行。

我想为每第n行做一些事情，删除20行。

最好的方法是什么？

Answer 1

如果它是随机的，您可以使用sample此方法可以让您只占DataFrame的一小部分。但是，如果您的想法是将数据拆分为training和validation，则可以使用randomSplit。

另一个不太优雅的选择是将DataFrame转换为RDD并使用zipWithIndex并按index过滤，可能类似于：

df.rdd.zipWithIndex().filter(lambda x: x[-1] % 20 != 0)