我想了解Spark的OneHotEncoder默认情况下放弃最后一个类别的理性。
例如:
>>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"])
>>> ss = StringIndexer(inputCol="c",outputCol="c_idx")
>>> ff = ss.fit(fd).transform(fd)
>>> ff.show()
+----+---+-----+
| x| c|c_idx|
+----+---+-----+
| 1.0| a| 0.0|
| 1.5| a| 0.0|
|10.0| b| 1.0|
| 3.2| c| 2.0|
+----+---+-----+
默认情况下,OneHotEncoder将删除最后一个类别:
>>> oe = OneHotEncoder(inputCol="c_idx",outputCol="c_idx_vec")
>>> fe = oe.transform(ff)
>>> fe.show()
+----+---+-----+-------------+
| x| c|c_idx| c_idx_vec|
+----+---+-----+-------------+
| 1.0| a| 0.0|(2,[0],[1.0])|
| 1.5| a| 0.0|(2,[0],[1.0])|
|10.0| b| 1.0|(2,[1],[1.0])|
| 3.2| c| 2.0| (2,[],[])|
+----+---+-----+-------------+
当然,这种行为可以改变:
>>> oe.setDropLast(False)
>>> fl = oe.transform(ff)
>>> fl.show()
+----+---+-----+-------------+
| x| c|c_idx| c_idx_vec|
+----+---+-----+-------------+
| 1.0| a| 0.0|(3,[0],[1.0])|
| 1.5| a| 0.0|(3,[0],[1.0])|
|10.0| b| 1.0|(3,[1],[1.0])|
| 3.2| c| 2.0|(3,[2],[1.0])|
+----+---+-----+-------------+
问题::
setDropLast(False)
?默认情况下不包括最后一个类别(可通过dropLast配置),因为它使向量条目总和为1,因此线性相关。
答案 0 :(得分:5)
根据文件,保持列独立:
将一列类别索引映射到列的单热编码器 二进制向量,每行最多一个单值 表示输入类别索引。例如,有5个类别,一个 输入值2.0将映射到[0.0,0.0,1.0的输出向量, 0.0]。默认情况下不包括最后一个类别(可通过OneHotEncoder!.dropLast配置,因为它使向量条目总和为 一个,因而线性依赖。因此输入值4.0映射到 [0.0,0.0,0.0,0.0]。请注意,这与scikit-learn不同 OneHotEncoder,保留所有类别。输出向量是 稀疏
https://spark.apache.org/docs/1.5.2/api/java/org/apache/spark/ml/feature/OneHotEncoder.html