Spark StringIndexer给定输入的一致输出值

时间:2017-08-26 07:46:00

标签: scala apache-spark apache-spark-mllib

是否可以使用Spark的StringIndexer始终为给定的输入返回相同的输出(即标有' Apple'将始终输出说' 56.0' )

用例是在索引多个DataFrame时,并非所有输入都包含在内,但是,您希望确保将这些输入转换为相同的索引值。

我试图避免自己的String =>数字映射,并想知道StringIndexer是否可以这样做。

1 个答案:

答案 0 :(得分:0)

在看了一些之后,我发现了这个类似的帖子: Spark ML StringIndexer Different Labels Training/Testing

如果您保存首先使用的StringIndexerModel并将其重新用于转换任何其他DataFrame,您将获得相同的输出。

我已将这篇文章标记为重复。