对分类字段进行一致的索引和分类

时间:2017-05-08 21:12:10

标签: scala apache-spark-sql apache-spark-mllib

假设我有以下Scala代码:

import org.apache.spark.ml.feature.StringIndexer

val df = spark.createDataFrame(Seq(
  (0, "a"),
  (1, "b"),
  (2, "c"),
  (3, "a"),
  (4, "a"),
  (5, "c")
)).toDF("id", "category")

val indexer = new StringIndexer()
  .setInputCol("category")
  .setOutputCol("categoryIndex")
  .fit(df)
val indexed = indexer.transform(df)

现在,假设我创建了一个使用此索引器的org.apache.spark.mllib.tree.model.DecisionTreeModel并将模型保存到文件中。

如果我将来对新数据做出预测,索引器将与原始数据上使用的原始索引器一致以构建模型,我该如何确保?

1 个答案:

答案 0 :(得分:0)

坚持并重新加载索引器