尚未在火花中实施的操作

时间:2017-08-11 15:30:52

标签: scala apache-spark

我是新来的火花,我想知道是否有一些redondant任务,一个开发人员工作火花通常需要添加代码。 这是我想说的例子。 我有一个包含数字的RDD。

val rdd1 = sc.parallelize(List(1,2,3,4,5))

我想知道这个RDD中是否存在数字4。 如果RDD是scala列表,我只会这样做:

myList.contains(5)

但是因为这是我必须要做的RDD:

rdd1.filter(x => x==5).count

并检查结果是否等于0.这给了我以下的功能:

def contains(rdd1:RDD, number:Int):Boolean {
    rdd1.filter(x => w == 5).count != 0
}

(我知道我可以用更合适的数据框来做到这一点,但这只是为了解释我的问题)

还有其他RDD或数据框的情况,开发人员需要做更多操作才能达到他想要的效果吗? (就像我在例子中所做的那样)

感谢。

0 个答案:

没有答案