azure - 从HDInsight集群头节点运行spark应用程序

从HDInsight集群头节点运行spark应用程序

时间：2017-03-27 13:25:14

标签： azure apache-spark hdinsight azure-data-factory apache-spark-2.0

我正在尝试使用命令

从azure HDInsight群集的头节点运行spark scala应用程序

spark-submit --class com.test.spark.Wordcount SparkJob1.jar wasbs：// 容器名称 @＆LT; storageaccountname ＆GT; /sample.sas7bdat wasbs：// 容器名称 @＆LT; storageaccountname ＆GT; /sample.csv

我正在使用它获得以下异常。

造成：java.lang.ClassCastException：无法分配实例 scala.collection.immutable.List $ SerializationProxy to field org.apache.spark.rdd.RDD.org $ apache $ spark $ rdd $ RDD $$ dependencies_ of 在实例中键入scala.collection.Seq org.apache.spark.rdd.MapPartitionsRDD

如果从Azure数据工厂调用，则相同的jar文件正在运行。我错过了一些使用spark-submit命令的配置吗？

1 个答案:

答案 0 :(得分：0)

通常，它是由您的代码逻辑引起的类型转换。有一个类似的SO线程How to fix java.lang.ClassCastException: cannot assign instance of scala.collection.immutable.List to field type scala.collection.Seq?已被回答，我想你可以参考它并检查你的代码来解决问题。