在Spark中保留RDD中的索引

时间:2017-12-01 10:19:02

标签: scala apache-spark

我想创建一个包含String元素的RDD。除了这些元素,我想要一个数字来表示元素的索引。但是,如果我删除元素,我不希望这个数字改变,因为我希望数字是原始索引(因此保留它)。在此RDD中保留订单也很重要。

如果我使用zipWithIndex然后删除一些元素,索引会改变吗?我可以使用哪个函数/结构来保持索引不变?我正在考虑创建一个Pair RDD,但我的输入数据不包含索引。

1 个答案:

答案 0 :(得分:1)

回答而不是删除。我的问题很容易通过满足我所有要求的zipWithIndex来解决。