Question

例如，我想通过使用元组中两个值的差异进行排序。我怎么能在Spark中做到这一点？

我想举例如下。

rdd.sortBy(_._2._1 - _._2._2)

Answer 1

您不能多次使用下划线，否则它将被解释为两个不同的参数（预期函数应该只有一个）。相反，命名参数并使用它两次：

rdd.sortBy(r => r._2._1 - r._2._2)