使用k-means将标记聚类到类别

时间:2017-06-30 02:57:29

标签: cluster-analysis k-means

真的很新,但我想我正在寻找K-means来做这件事。

我有一堆带有标签的对象(很多)。他们的其他功能都不重要。我知道类似的对象有类似的标签,它们可以分为"类别"。我想知道这些类别是什么(使用k-means?)。标签看起来像......

[u'品尝',你'健康',你'食谱',你' vietnam',你' egg',u& #39;汤',...]

[你'孩子',你',你'健康',你'学校',你'食谱',你& #39;家庭',...]

[u'饮食',你'舌头',你'健康',你'美容',你'头发' ,. ..]

[u'锻炼',你' athens',你' pizzino',你' henya',你'体重',你& #39;损失',...]

使用k-means时,有关于字符串列表的任何教程或指南?订单无关紧要。我希望结果可以返回一组聚类标签?它是如何工作的?谢谢!!

1 个答案:

答案 0 :(得分:2)

K-means基于方差最小化。

它试图最小化与 mean 的偏差平方和。

因此,它仅适用于连续数值变量,您可以在其中计算平均值。

人们试图将其他数据作为0,1向量嵌入,但通常结果非常糟糕,你不能再解释结果了。

“均值”不适合您的任务。也许相反看一下频繁的项目集(或者在你的情况下:频繁的标签集)