我有一个ML管道,它挂了很长时间而没有完成,所以我划分了步骤并检查了每个步骤的输出。 我发现VectorAssembler在小型数据集上挂了很长时间 当我运行show()步骤时,它将永远挂起。 我还通过用0进行归位来验证问题不是由于空值引起的。
df2_impute = df2.na.fill(0)
continuousCols = numeric_columns+various_cols+additionalFlds
HashedInputs = [c + "_hashed" for c in categorical_columns] +[d for d in continuousCols if d not in
[f for f in date_columns]]
assembler = VectorAssembler(inputCols=HashedInputs,outputCol="features")
df3 =assembler.transform(df2_impute)
df3.show()
categorical_columns已使用FeatureHasher进行哈希处理,因此它们现在是向量。 ContinuousCols是数值。 可能是什么原因造成的?