Question

我想知道当输入是一组矢量时，k均值算法是否以及如何建立聚类。

在KNIME中，我向k-means节点提供了多个向量（由节点“文档向量”构建），我很难评估k-means节点的输出。我想知道向量输入是否真的有意义。

请帮助我了解如何使用向量来计算聚类。预先谢谢你。

Answer 1

如果要在K-Means算法中将向量用作输入，请使用one hot encoding将所有向量值转换为数字，我们也将其称为二值化。

例如：

假设您在3D空间中有一个矢量（0,0,1）和（1,0,0）。请将它们分别视为一个单独的要素

   -        v1      v2
          -----   ------
   -       x y z   x y z
feature1   0 0 1   1 0 0
feature2   1 0 0   0 0 1

它将变成这样：

   -      v1x,v1y,v1z,v2x,v2y,v2z
feature1   0   0   1   1   0   0
feature2   1   0   0   0   0   1

现在您可以认为这些功能中的每一个都位于3维向量空间中。