根据数组中元素的存在过滤rdd

时间:2017-02-03 09:35:30

标签: scala apache-spark filter rdd

我有一个有50万个元素的rdd,所有元素都是字符串。我必须过滤并创建一个具有以下任何术语的新rdd:

val x = Array("apple", "mango", "papaya","pineapple")

因此,如果原始rdd中的字符串包含上面数组中的任何字符串,则它应该位于已过滤的rdd中。 在scala中执行此操作的有效方法是什么? 是否有单行方式,或者我必须遍历每个元素并找出?

1 个答案:

答案 0 :(得分:2)

类似的东西:

val strings = Set("apple", "mango", "papaya",v"pineapple")
rdd.filter(strings.contains(_))