从HDInsight集群头节点运行spark应用程序

时间:2017-03-27 13:25:14

标签: azure apache-spark hdinsight azure-data-factory apache-spark-2.0

我正在尝试使用命令

从azure HDInsight群集的头节点运行spark scala应用程序
  

spark-submit --class com.test.spark.Wordcount SparkJob1.jar   wasbs:// 容器名称 @< storageaccountname > /sample.sas7bdat   wasbs:// 容器名称 @< storageaccountname > /sample.csv

我正在使用它获得以下异常。

  

造成:java.lang.ClassCastException:无法分配实例   scala.collection.immutable.List $ SerializationProxy to field   org.apache.spark.rdd.RDD.org $ apache $ spark $ rdd $ RDD $$ dependencies_ of   在实例中键入scala.collection.Seq   org.apache.spark.rdd.MapPartitionsRDD

如果从Azure数据工厂调用,则相同的jar文件正在运行。我错过了一些使用spark-submit命令的配置吗?

1 个答案:

答案 0 :(得分:0)

通常,它是由您的代码逻辑引起的类型转换。有一个类似的SO线程How to fix java.lang.ClassCastException: cannot assign instance of scala.collection.immutable.List to field type scala.collection.Seq?已被回答,我想你可以参考它并检查你的代码来解决问题。