Scala Word计数罐没有在spark中运行

时间:2016-07-03 04:43:01

标签: eclipse scala maven hadoop apache-spark

我对Scala和Spark都很陌生。我将Scala IDE添加到Eclipse Luna。我在日食中创建了一个maven项目。我是使用run as配置选项在eclipse中运行程序,并且能够成功获得输出。但是当我为以下程序创建jar并试图运行spark shell时会出现以下错误。

  

错误:';'预期但发现了“课程”。

用于运行jar的命令

spark-submit --class com.kirthi.spark.proj.sparkexamples.WordsCount --master local /home/cloudera/workspace/sparkwc1.jar hdfs://localhost:8020/kirthi3/dataset.txt hdfs://localhost:8020/kirthi3/sparkwco

我试过的字数统计程序

package com.kirthi.spark.proj.sparkexamples
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

object WordsCount {
 def main(args: Array[String]){

   val conf = new SparkConf()
   .setAppName("Word Count")
   .setMaster("local")

   val sc = new SparkContext(conf)

   val textFile = sc.textFile(args(0))

   val words = textFile.flatMap(line => line.split(","))

   val counts = words.map(word => (word,1))

   val wordcount = counts.reduceByKey(_+_)

   val wordcount_sorted = wordcount.sortByKey()

   wordcount_sorted.foreach(println)

   wordcount_sorted.saveAsTextFile(args(1)) 
  }

}

请帮我解决这个问题,因为我对火花的初步计划感到震惊。

我正在使用cloudera quickstart CDH 5.5

1 个答案:

答案 0 :(得分:0)

如评论中所示,您在Scala REPL中运行了上述命令,您应该从常规的Linux shell运行它。