从管道获取转换后的数据框

时间:2017-05-02 18:53:44

标签: scala apache-spark

我有一个包含VectorAssemblerStringIndexerKMeans阶段的管道,如下所示:

val pipeline = new Pipeline().setStages(string_indexer :+ assembler :+ kmeans)

假设使用以下命令安装管道:

val model = pipeline.fit(df)

使用dfKMeans转换df后,如何访问StringIndexer使用过的数据框VectorAssembler? (即我想要StringIndexerVectorAssembler生成的最终数据框)

1 个答案:

答案 0 :(得分:1)

您应该使用transform方法将DataFrame转换为您的模型:

val newDF = model.transform(df)

新的DataFrame,newDF,将包含代码中生成的所有列