apache-spark的分类变量

时间:2018-11-09 09:23:37

标签: apache-spark apache-spark-ml one-hot-encoding

我目前正在尝试使用apache-spark进行kmean算法之前的功能转换。 我使用一个stringIndexer和一个热编码器将一些分类变量转换为数字。其中之一是一天,我希望输出如下:

+--------------------+---------+-------+-------------+
|               _uuid|      day|day_idx|      day_vec|
+--------------------+---------+-------+-------------+
|4de8549a-c7bb-438...|Wednesday|    2.0|(0,0,1,0,0,0)|
|1253f723-7d95-474...| Thursday|    3.0|(0,0,0,1,0,0)|
|4b42658a-e49c-4cb...|   Friday|    1.0|(0,0,0,0,1,0)|
|16616c41-b1aa-490...| Saturday|    0.0|(0,0,0,0,0,1)|
|7751c4ae-8156-4f1...|   Sunday|    4.0|(0,0,0,0,0,0)|
|f89b10c1-291d-4ac...|   Monday|    6.0|(1,0,0,0,0,0)|
|a08be704-3660-4e1...|  Tuesday|    5.0|(0,1,0,0,0,0)|
+--------------------+---------+-------+-------------+

但是我最终得到了:

+--------------------+---------+-------+-------------+
|               _uuid|      day|day_idx|      day_vec|
+--------------------+---------+-------+-------------+
|4de8549a-c7bb-438...|Wednesday|    2.0|(6,[2],[1.0])|
|1253f723-7d95-474...| Thursday|    3.0|(6,[3],[1.0])|
|4b42658a-e49c-4cb...|   Friday|    1.0|(6,[1],[1.0])|
|16616c41-b1aa-490...| Saturday|    0.0|(6,[0],[1.0])|
|7751c4ae-8156-4f1...|   Sunday|    4.0|(6,[4],[1.0])|
|f89b10c1-291d-4ac...|   Monday|    6.0|    (6,[],[])|
|a08be704-3660-4e1...|  Tuesday|    5.0|(6,[5],[1.0])|
+--------------------+---------+-------+-------------+

这似乎是很好的输出。但是我不理解表示形式(6,[2],[1.0])。

有人可以解释一下这种格式的含义吗?

谢谢!

0 个答案:

没有答案