类型不匹配,找到SortedSet,必需任何

时间:2019-04-01 05:47:27

标签: scala apache-spark

使用combinebyKey时,出现如下类型不匹配错误

scala> rdd.map(x => (x._1, x._2))
          .combineByKey( (x: Int) => x, 
                         (acc: SortedSet[Int], x: Int) => (acc += x), 
                         (acc1: SortedSet[Int], acc2: SortedSet[Int]) => (acc1 ++= acc2))

<console>:29: error: type mismatch;
 found   : (scala.collection.mutable.SortedSet[Int], Int) => scala.collection.mutable.SortedSet[Int]
 required: (Any, Int) => Any
       rdd.map(x => (x._1, x._2)).combineByKey( (x: Int) => x, (acc: SortedSet[Int], x: Int) => (acc += x), (acc1: SortedSet[Int], acc2: SortedSet[Int]) => (acc1 ++= acc2))
                                                                                             ^
<console>:29: error: type mismatch;
 found   : (scala.collection.mutable.SortedSet[Int], scala.collection.mutable.SortedSet[Int]) => scala.collection.mutable.SortedSet[Int]
 required: (Any, Any) => Any
       rdd.map(x => (x._1, x._2)).combineByKey( (x: Int) => x, (acc: SortedSet[Int], x: Int) => (acc += x), (acc1: SortedSet[Int], acc2: SortedSet[Int]) => (acc1 ++= acc2))

为什么scala无法将scala.collection.mutable.SortedSet[Int]视为Any

这是我尝试的代码:

import scala.collection.mutable.SortedSet
val data = Array((1, 1, 1), 
                 (1, 1, 2),
                 (1, 1, 3),
                 (1, 2, 1),
                 (1, 2, 2),
                 (1, 2, 3), 
                 (2, 1, 1), 
                 (2, 1, 2), 
                 (2, 1, 3), 
                 (2, 2, 1), 
                 (2, 2, 2), 
                 (2, 2, 3))
val rdd = sc.parallelize(data)

rdd.map(x => (x._1, x._2))
   .combineByKey( (x: Int) => x, 
                  (acc: SortedSet[Int], x: Int) => (acc += x), 
(acc1: SortedSet[Int], acc2: SortedSet[Int]) => (acc1 ++= acc2))

我希望得到 ((1,(1,2)),(2,(1,2)),键/值对中的值不包含重复的元素。

1 个答案:

答案 0 :(得分:4)

第一个函数的返回类型需要为一个排序集,spark需要知道如何构造组合器。这样的事情应该起作用

rdd.map(x => (x._1, x._2)).combineByKey( 
  (x: Int) => new mutable.TreeSet[Int] += x, 
  (acc: SortedSet[Int], x: Int) => (acc += x), 
  (acc1: SortedSet[Int], acc2: SortedSet[Int]) => (acc1 ++= acc2))