我正在尝试使用spark-1.6.1-bin-hadoop1(hadoop 1.X的预构建包)运行spark-terasort。
当我尝试运行spark时:
./bin/spark-submit --class com.github.ehiggs.spark.terasort.TeraGen ~/spark-terasort/target/spark-terasort-1.0-jar-with-dependencies.jar 100G hdfs:///input_terasort
我收到错误:
线程“main”中的异常java.lang.IncompatibleClassChangeError:找到类org.apache.hadoop.mapreduce.JobContext,但是接口是预期的
这可能与不同的Hadoop版本(spark和spark-terasort之间)有关。我试过玩pom.xml(用于编译spark-terasort)但没有太大的成功。
如何将spark-terasort与spark-1.6.1-bin-hadoop1一起使用?
答案 0 :(得分:0)
spark-terasort
旧:
<scala.binary.version>2.10</scala.binary.version>
<spark.version>1.2.1</spark.version>
我正在考虑修补它。会回来..
更新我尝试使用1.6.0-SNAPSHOT
,TeraGen工作正常。
Input size: 1000KB
Total number of records: 10000
Number of output partitions: 2
Number of records/output partition: 5000
===========================================================================
===========================================================================
Number of records written: 10000
这是针对本地文件系统运行的。我将在大约12小时后查看真正的 hdfs。