我目前正在尝试使用apache-spark进行kmean算法之前的功能转换。 我使用一个stringIndexer和一个热编码器将一些分类变量转换为数字。其中之一是一天,我希望输出如下:
+--------------------+---------+-------+-------------+
| _uuid| day|day_idx| day_vec|
+--------------------+---------+-------+-------------+
|4de8549a-c7bb-438...|Wednesday| 2.0|(0,0,1,0,0,0)|
|1253f723-7d95-474...| Thursday| 3.0|(0,0,0,1,0,0)|
|4b42658a-e49c-4cb...| Friday| 1.0|(0,0,0,0,1,0)|
|16616c41-b1aa-490...| Saturday| 0.0|(0,0,0,0,0,1)|
|7751c4ae-8156-4f1...| Sunday| 4.0|(0,0,0,0,0,0)|
|f89b10c1-291d-4ac...| Monday| 6.0|(1,0,0,0,0,0)|
|a08be704-3660-4e1...| Tuesday| 5.0|(0,1,0,0,0,0)|
+--------------------+---------+-------+-------------+
但是我最终得到了:
+--------------------+---------+-------+-------------+
| _uuid| day|day_idx| day_vec|
+--------------------+---------+-------+-------------+
|4de8549a-c7bb-438...|Wednesday| 2.0|(6,[2],[1.0])|
|1253f723-7d95-474...| Thursday| 3.0|(6,[3],[1.0])|
|4b42658a-e49c-4cb...| Friday| 1.0|(6,[1],[1.0])|
|16616c41-b1aa-490...| Saturday| 0.0|(6,[0],[1.0])|
|7751c4ae-8156-4f1...| Sunday| 4.0|(6,[4],[1.0])|
|f89b10c1-291d-4ac...| Monday| 6.0| (6,[],[])|
|a08be704-3660-4e1...| Tuesday| 5.0|(6,[5],[1.0])|
+--------------------+---------+-------+-------------+
这似乎是很好的输出。但是我不理解表示形式(6,[2],[1.0])。
有人可以解释一下这种格式的含义吗?
谢谢!