根据相似性对Hashtags进行分类

时间:2014-06-04 07:15:00

标签: twitter machine-learning nlp text-analysis

我有不同的文档,每个文档都有一个主题标签列表。我想将它们分组在最相关的主题标签下(它将出现在文档本身中)。 Egs:如果有#Eco,#Ecofriendly#GoingGreen - 我想将所有这些分组在最相关和最具代表性的Hashtag(说#Eco)下。我应该如何处理这个以及我应该关注哪些技术和算法?

2 个答案:

答案 0 :(得分:1)

我会创建一个文档 - 哈希标签的二分图并在二分图上使用聚类: http://www.cs.utexas.edu/users/inderjit/public_papers/kdd_bipartite.pdf

这样我就不会使用文档的内容,只是将主题标签聚类,这就是你想要的。

答案 1 :(得分:-1)

你的问题不是很严格,因此可能有多个答案,但是,如果我们假设你真的想要“我希望将所有这些分组在最常见的Hashtag下”,那么只需循环遍历所有主题标签,计算他们经常会出现,然后为每个文件选择出现次数最多的文件。

这样的东西
N = {}
for D in documents:
    for h in D.hashtags:
        if h not in N: N[h] = 0
        N[h] += 1

for D in documents:
    best = None
    for h in D.hashtags:
        if best==None or N[best] < N[h]:
            best = h
    print 'Document ',D,' should be tagged with ',best