无法使用spark-1.6.1-bin-hadoop1运行spark-terasort

时间:2016-05-17 15:40:40

标签: maven hadoop apache-spark

我正在尝试使用spark-1.6.1-bin-hadoop1(hadoop 1.X的预构建包)运行spark-terasort

当我尝试运行spark时:

./bin/spark-submit --class com.github.ehiggs.spark.terasort.TeraGen  ~/spark-terasort/target/spark-terasort-1.0-jar-with-dependencies.jar 100G hdfs:///input_terasort

我收到错误:

  

线程“main”中的异常java.lang.IncompatibleClassChangeError:找到类org.apache.hadoop.mapreduce.JobContext,但是接口是预期的

这可能与不同的Hadoop版本(spark和spark-terasort之间)有关。我试过玩pom.xml(用于编译spark-terasort)但没有太大的成功。

如何将spark-terasort与spark-1.6.1-bin-hadoop1一起使用?

1 个答案:

答案 0 :(得分:0)

spark-terasort 旧:

  <scala.binary.version>2.10</scala.binary.version>
  <spark.version>1.2.1</spark.version>

我正在考虑修补它。会回来..

更新我尝试使用1.6.0-SNAPSHOT,TeraGen工作正常。

Input size: 1000KB
Total number of records: 10000
Number of output partitions: 2
Number of records/output partition: 5000
===========================================================================
===========================================================================
Number of records written: 10000

这是针对本地文件系统运行的。我将在大约12小时后查看真正的 hdfs。