PySpark:Spark ML MulitLayerPerceptron失败但其他分类器工作正常

时间:2017-05-13 06:19:29

标签: apache-spark pyspark apache-spark-ml

您好我使用Spark ML来训练模型。训练数据集有130列和1000万行。现在,问题在于每当我运行MultiLayerPerceptron时它都会显示以下错误:

  

org.apache.spark.SparkException:作业因阶段失败而中止:   阶段1882.0中的任务43失败4次,最近失败:失去任务   43.3在阶段1882.0(TID 180174,10.233.252.145,执行器6):java.lang.ArrayIndexOutOfBoundsException

有趣的是,当我使用Logistic回归和随机森林等其他分类器时,它不会发生。

我的代码:

# Building the model

inputneurons = len(features_columns)

#Assembling the Feature Vectors
assembler = VectorAssembler(inputCols=features_columns, outputCol="features")

#Logistic Regression
mlp = MultilayerPerceptronClassifier(labelCol=label, featuresCol="features", layers=[inputneurons,300,2])

#Pipelining the assembling and modeling process
pipeline = Pipeline(stages=[assembler, mlp])
model = pipeline.fit(training_df)

Spark中MLP问题背后的原因是什么?

1 个答案:

答案 0 :(得分:0)

标签中有两个以上的类,但在多层感知器分类器中,我指定了2个输出神经元,导致ArrayIndexOutOfBoundException。