Question

我对Spark sorting of delimited data似乎有类似的问题，但是已接受的解决方案并不能解决我的问题。

我正在尝试在一个简单的RDD上应用combineByKey：

    package foo
    import org.apache.spark._
    import org.apache.spark.SparkConf
    import org.apache.spark.SparkContext._

    object HelloTest {
      def main(args: Array[String]) {
        val sparkConf = new SparkConf().setAppName("Test")
        val sc = new SparkContext(sparkConf)
        val input = sc.textFile("/path/to/test.txt")
        val result = input.combineByKey(
          (v) => (v, 1), 
          (acc: (Int, Int), v) => (acc._1 + v, acc._2 + 1), 
          (acc1: (Int, Int), acc2: (Int, Int)) => (acc1._1 + acc2._1, acc1._2 + acc2._2)
        ).map{ case (key, value) => (key, value._1 / value._2.toFloat) }
        result.collectAsMap().map(println(_))

           sc.stop()
         }
    }

我在编译时得到（唯一的）跟随错误：

$ scalac -cp /path/to/scala-2.10/spark-assembly-1.4.0-SNAPSHOT-hadoop2.2.0.jar -sourcepath src/ -d bin src/foo/HelloTest.scala

error: value combineByKey is not a member of org.apache.spark.rdd.RDD[String]

有趣的是这里没有描述combineByKey函数：https://spark.apache.org/docs/latest/programming-guide.html#working-with-key-value-pairs但是，在使用learning spark book的k / v对部分时。

Answer 1

所以问题似乎是你的输入是非键控的。当您从文本文件读入输入时，它是字符串的RDD，对于combineByKey或任何类似的函数，它需要是键值对的RDD。希望有帮助并很高兴看到Learning Spark读者：）

Spark隐式RDD转换不起作用

1 个答案: