我有不同的文档,每个文档都有一个主题标签列表。我想将它们分组在最相关的主题标签下(它将出现在文档本身中)。 Egs:如果有#Eco,#Ecofriendly#GoingGreen - 我想将所有这些分组在最相关和最具代表性的Hashtag(说#Eco)下。我应该如何处理这个以及我应该关注哪些技术和算法?
答案 0 :(得分:1)
我会创建一个文档 - 哈希标签的二分图并在二分图上使用聚类: http://www.cs.utexas.edu/users/inderjit/public_papers/kdd_bipartite.pdf
这样我就不会使用文档的内容,只是将主题标签聚类,这就是你想要的。
答案 1 :(得分:-1)
你的问题不是很严格,因此可能有多个答案,但是,如果我们假设你真的想要“我希望将所有这些分组在最常见的Hashtag下”,那么只需循环遍历所有主题标签,计算他们经常会出现,然后为每个文件选择出现次数最多的文件。
像
这样的东西N = {}
for D in documents:
for h in D.hashtags:
if h not in N: N[h] = 0
N[h] += 1
for D in documents:
best = None
for h in D.hashtags:
if best==None or N[best] < N[h]:
best = h
print 'Document ',D,' should be tagged with ',best