Question

我们有一个由多个特征转换阶段组成的管道（2.0.1）。

其中一些阶段是OneHot编码器。想法：将基于整数的类别分类为n个独立的特征。

训练管道模型并使用它来预测所有工作正常。但是，存储训练好的管道模型并重新加载它会导致问题：

经过培训的＆＃39; OneHot编码器不会跟踪有多少类别。现在加载它会导致问题：当使用加载的模型进行预测时，它会重新确定有多少类别，从而导致训练特征空间和预测特征空间具有不同的大小（维度）。请参阅下面的示例代码，在Zeppelin笔记本中运行：

import org.apache.spark.ml.feature.OneHotEncoder
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.PipelineModel


// Specifying two test samples, one with class 5 and one with class 3. This is OneHot encoded into 5 boolean features (sparse vector)
// Adding a 'filler' column because createDataFrame doesnt like single-column sequences and this is the easiest way to demo it ;)
val df = spark.createDataFrame(Seq((5, 1), (3, 1))).toDF("class", "filler")

val enc = new OneHotEncoder()
  .setInputCol("class")
  .setOutputCol("class_one_hot")

val pipeline = new Pipeline()
  .setStages(Array(enc))

val model = pipeline.fit(df)
model.transform(df).show()

/*
+-----+------+-------------+
|class|filler|class_one_hot|
+-----+------+-------------+
|    5|     1|(5,[],[])    |
|    3|     1|(5,[3],[1.0])|
+-----+------+-------------+

Note: Vector of size 5
*/

model.write.overwrite().save("s3a://one-hot")

val loadedModel = PipelineModel.load("s3a://one-hot")

val df2 = spark.createDataFrame(Seq((3, 1))).toDF("class", "output") // When using the trained model our input consists of one row (prediction engine style). The provided category for the prediction feature set is category 3
loadedModel.transform(df2).show()

/*
+-----+------+-------------+
|class|output|class_one_hot|
+-----+------+-------------+
|    3|     1|(3,[],[])    |
+-----+------+-------------+

Note: Incompatible vector of size 3
*/

我更愿意不制作我自己的支持此序列化的OneHot编码器，有没有其他方法可以直接使用？

Answer 1

Spark＆gt; = 2.3

Spark 2.3引入了OneHotEncoderEstimator（在Spark 3.0中被重命名为OneHotEncoder，可以直接使用，并支持多个输入列。

Spark＆lt; 2.3

您不要使用OneHotEncoder，因为它是打算使用的。 OneHotEncoder是Transofrmer而不是Estimator。它不存储有关级别的任何信息，但依赖于Column元数据来确定输出维度。如果缺少元数据（如您的情况），则会使用回退策略并假设存在max(input_column)级别。序列化与此无关。

典型用法涉及上游Transformers中的Pipeline，它为您设置元数据。一个常见的例子是StringIndexer。

仍然可以手动设置元数据，但它更复杂：

import org.apache.spark.ml.attribute.NominalAttribute val meta = NominalAttribute.defaultAttr .withName("class") .withValues("0", (1 to 5).map(_.toString): _*) .toMetadata loadedModel.transform(df2.select($"class".as("class", meta), $"output"))

同样在Python中（需要Spark＆gt; = 2.2）：

from pyspark.sql.functions import col meta = {"ml_attr": { "vals": [str(x) for x in range(6)], # Provide a set of levels "type": "nominal", "name": "class"}} loaded.transform( df.withColumn("class", col("class").alias("class", metadata=meta)) )

元数据也可以使用多种不同的方法附加：How to change column metadata in pyspark?。

Spark：OneHot编码器和存储管道（特征维度问题）

1 个答案: