是否可以使用Spark的StringIndexer始终为给定的输入返回相同的输出(即标有' Apple'将始终输出说' 56.0' )
用例是在索引多个DataFrame时,并非所有输入都包含在内,但是,您希望确保将这些输入转换为相同的索引值。
我试图避免自己的String =>数字映射,并想知道StringIndexer是否可以这样做。
答案 0 :(得分:0)
在看了一些之后,我发现了这个类似的帖子: Spark ML StringIndexer Different Labels Training/Testing
如果您保存首先使用的StringIndexerModel并将其重新用于转换任何其他DataFrame,您将获得相同的输出。
我已将这篇文章标记为重复。