我有云标签A,B,C。每个云标签由实体(单词)e,f,g ...
组成我希望找到将云标签分隔成(大多数)独立集群的好词。例如:
字e表示Cloudtag A和B但不是C ...所以e是一个很好的分离器来获得2个集群。
现在有100.000个cloudtags和1.000.000个单词。我想做同样的事情来像K群集一样。 cloudtag可以属于两个集群,这并不重要。
我知道k-means,但我不知道如何将数据转换为数字多维数据。据我所知,kmeans需要数值点来创建聚类。
我也想使用快速采矿机作为软件,但任何算法,软件作为基本输入都非常有用。
提前致谢。
答案 0 :(得分:1)
您没有描述群集。
但是"云标签"的功能(单词)选择分类
查看决策树,以及用于识别拆分的好功能的指标。