我是新来的火花,我想知道是否有一些redondant任务,一个开发人员工作火花通常需要添加代码。 这是我想说的例子。 我有一个包含数字的RDD。
val rdd1 = sc.parallelize(List(1,2,3,4,5))
我想知道这个RDD中是否存在数字4。 如果RDD是scala列表,我只会这样做:
myList.contains(5)
但是因为这是我必须要做的RDD:
rdd1.filter(x => x==5).count
并检查结果是否等于0.这给了我以下的功能:
def contains(rdd1:RDD, number:Int):Boolean {
rdd1.filter(x => w == 5).count != 0
}
(我知道我可以用更合适的数据框来做到这一点,但这只是为了解释我的问题)
还有其他RDD或数据框的情况,开发人员需要做更多操作才能达到他想要的效果吗? (就像我在例子中所做的那样)
感谢。