Question

我正在尝试使用spark-1.6.1-bin-hadoop1（hadoop 1.X的预构建包）运行spark-terasort。

当我尝试运行spark时：

./bin/spark-submit --class com.github.ehiggs.spark.terasort.TeraGen  ~/spark-terasort/target/spark-terasort-1.0-jar-with-dependencies.jar 100G hdfs:///input_terasort

我收到错误：

线程“main”中的异常java.lang.IncompatibleClassChangeError：找到类org.apache.hadoop.mapreduce.JobContext，但是接口是预期的

这可能与不同的Hadoop版本（spark和spark-terasort之间）有关。我试过玩pom.xml（用于编译spark-terasort）但没有太大的成功。

如何将spark-terasort与spark-1.6.1-bin-hadoop1一起使用？

Answer 1

spark-terasort 旧：

  <scala.binary.version>2.10</scala.binary.version>
  <spark.version>1.2.1</spark.version>

我正在考虑修补它。会回来..

更新我尝试使用1.6.0-SNAPSHOT，TeraGen工作正常。

Input size: 1000KB
Total number of records: 10000
Number of output partitions: 2
Number of records/output partition: 5000
===========================================================================
===========================================================================
Number of records written: 10000

这是针对本地文件系统运行的。我将在大约12小时后查看真正的 hdfs。

无法使用spark-1.6.1-bin-hadoop1运行spark-terasort

1 个答案: