我想知道当输入是一组矢量时,k均值算法是否以及如何建立聚类。
在KNIME中,我向k-means节点提供了多个向量(由节点“文档向量”构建),我很难评估k-means节点的输出。我想知道向量输入是否真的有意义。
请帮助我了解如何使用向量来计算聚类。预先谢谢你。
答案 0 :(得分:0)
如果要在K-Means算法中将向量用作输入,请使用one hot encoding将所有向量值转换为数字,我们也将其称为二值化。
例如:
假设您在3D空间中有一个矢量(0,0,1)和(1,0,0)。请将它们分别视为一个单独的要素
- v1 v2
----- ------
- x y z x y z
feature1 0 0 1 1 0 0
feature2 1 0 0 0 0 1
它将变成这样:
- v1x,v1y,v1z,v2x,v2y,v2z
feature1 0 0 1 1 0 0
feature2 1 0 0 0 0 1
现在您可以认为这些功能中的每一个都位于3维向量空间中。