在Spark RDD上使用原生的Scala方法是否会失去Spark魔法?

时间:2017-12-11 14:06:28

标签: scala apache-spark rdd

我潜入Spark工作,我对Spark如何处理某些事情有疑问。

说我有一个密钥的RDD - >值对:(CustomerID,TotalSpend)。如果我在RDD上使用.sortBy,因为.sortBy是Scala方法而不是Spark方法,我是否错过了Spark魔法?

换句话说,要从Spark的分发中受益,你能否只在RDD上使用Spark方法?我已经看过人们会想做类似的例子:rdd.sortBy(x => x._2)但是他们首先映射rdd以反转元组成员,然后使用rdd.reduceByKey ()。

1 个答案:

答案 0 :(得分:1)

RDD.sortBy,与RDD有关的所有其他内容都来自Spark,它不属于Scala标准库。没有标准的Scala方法可以与RDD一起使用,因为RDD的整个概念来自Spark。