基于python中标记的聚类

时间:2015-05-08 05:10:30

标签: python numpy scipy grouping cluster-analysis

我有搜索系统,其中书籍被标记,每本书都标有一些标签。 防爆。

book: tags
book1: u'NIPU', u'YPAM', u'AXEI', u'WJQT', u'SNUR', u'FJQV', u'UTMQ'
book2: u'NKEM', u'JAQQ', u'EFOY', u'DAGS', u'FJQV'
book3: u'YPAM', u'AXEI', u'WJQT', u'SNUR', u'FJQV', u'UTMQ', u'UJHA'
....
..
.

这里有成千上万本不同标签的书。我正在寻找一些集群机制,我可以根据标签创建列表。 例如:

tag: No of books

NIPU: 12390
FJQV: 2345
..
.
NIPU,FJQV: 1243
SNUR,UJHA: 2343
..
.
NIPU,FJQV,SNUR: 1290
..
.
EFOY,WJQT,FJQV,UTMQ: 1894
....
...
..
.
YPAM,AXEI,WJQT,SNUR,FJQV,UTMQ,UJHA: 1

任何指针都会非常有用,我花了一些时间在kmeans上,但不确定如何在这种情况下使用它。

2 个答案:

答案 0 :(得分:0)

我不认为kmeans在这种情况下是合适的,因为你在寻找数据的平等,而不是相似之处。看起来你想要找到的是频繁的项目集。这可能是一项计算要求很高的任务,具体取决于数据的大小,但有一些技巧可以巧妙地查询搜索空间。

研究先验原理,特别是候选修剪的Fk-1 X Fk-1方法。本书第6章将指导您:http://www-users.cs.umn.edu/~kumar/dmbook/index.php

答案 1 :(得分:0)

你要求

频繁项目集挖掘

(即频繁标签和频繁的标签组合)

不适用于聚类分析。 k-means将无处可寻 - 错误的工具解决了错误的问题。