scala - 在Spark RDD上使用原生的Scala方法是否会失去Spark魔法？ - Thinbug

在Spark RDD上使用原生的Scala方法是否会失去Spark魔法？

时间：2017-12-11 14:06:28

标签： scala apache-spark rdd

我潜入Spark工作，我对Spark如何处理某些事情有疑问。

说我有一个密钥的RDD - ＆gt;值对：（CustomerID，TotalSpend）。如果我在RDD上使用.sortBy，因为.sortBy是Scala方法而不是Spark方法，我是否错过了Spark魔法？

换句话说，要从Spark的分发中受益，你能否只在RDD上使用Spark方法？我已经看过人们会想做类似的例子：rdd.sortBy（x =＆gt; x._2）但是他们首先映射rdd以反转元组成员，然后使用rdd.reduceByKey （）。

1 个答案:

答案 0 :(得分：1)

RDD.sortBy，与RDD有关的所有其他内容都来自Spark，它不属于Scala标准库。没有标准的Scala方法可以与RDD一起使用，因为RDD的整个概念来自Spark。