Question

我将产品ID划分为销售额和销售利润，以确定需要重点关注的产品ID。

以下代码将第2列（销售金额）和第3列（销售利润）作为kmeans的输入。第1行是产品1，第2行是产品2，以此类推，而不是当前的标签。我希望标签是产品ID（即data_nz [，1]）而不是行索引。

k2 <- kmeans(data_nz[,2:3], centers = 3, nstart = 1000)

当我在群集中输出数据示例时（排除群集2，因为这些是我不关心的示例）：

k2$cluster[k2$cluster != 2]

我得到行索引和簇号，但是我想要的是产品ID和簇号。

下面的数据集示例：Product_ID，sales_of_sales，profit_of_sales

有人可以指出我正确的方向吗？

Answer 1

您在data_nz[, 1]中已经有一个产品ID的有序向量，该向量与簇号（k2$cluster）相匹配。您可以像这样并排查看它们：

data.frame(product_id = data_nz[[1]],
           cluster = k2$cluster)

如果要删除某些行，可以：

data.frame(product_id = data_nz[[1]],
           cluster = k2$cluster
           )[k2$cluster != 2, ]