Spark ML中的VectorAssembler变压器挂起

时间:2019-09-25 20:20:34

标签: pyspark apache-spark-mllib apache-spark-ml

我有一个ML管道,它挂了很长时间而没有完成,所以我划分了步骤并检查了每个步骤的输出。 我发现VectorAssembler在小型数据集上挂了很长时间 当我运行show()步骤时,它将永远挂起。 我还通过用0进行归位来验证问题不是由于空值引起的。

df2_impute = df2.na.fill(0)
continuousCols = numeric_columns+various_cols+additionalFlds
HashedInputs = [c + "_hashed" for c in categorical_columns] +[d for d in continuousCols if d not in 
               [f for f in date_columns]]
assembler = VectorAssembler(inputCols=HashedInputs,outputCol="features")
df3 =assembler.transform(df2_impute)
df3.show()

categorical_columns已使用FeatureHasher进行哈希处理,因此它们现在是向量。 ContinuousCols是数值。 可能是什么原因造成的?

0 个答案:

没有答案