我潜入Spark工作,我对Spark如何处理某些事情有疑问。
说我有一个密钥的RDD - >值对:(CustomerID,TotalSpend)。如果我在RDD上使用.sortBy,因为.sortBy是Scala方法而不是Spark方法,我是否错过了Spark魔法?
换句话说,要从Spark的分发中受益,你能否只在RDD上使用Spark方法?我已经看过人们会想做类似的例子:rdd.sortBy(x => x._2)但是他们首先映射rdd以反转元组成员,然后使用rdd.reduceByKey ()。
答案 0 :(得分:1)
RDD.sortBy
,与RDD有关的所有其他内容都来自Spark,它不属于Scala标准库。没有标准的Scala方法可以与RDD一起使用,因为RDD的整个概念来自Spark。