推特集群的集群

时间:2014-04-22 14:15:58

标签: twitter machine-learning data-mining

我是集群的新手,之前只是实现了几个算法。 我需要根据它们的相似性对推文进行聚类。 一种方法是仅使用哈希标记,但我不认为它会提供信息。所以应该分析完整的推文。

此外,我在网上搜索聚类Feed的算法。

我遇到的是TF-IDF。我想知道是否有更好的算法可以在几个小时内实现,并且比TF-IDF更好。我也会在一些有关Twitter源聚类的信息来源中进行讨论。

PS:推文数量:10 ^ 5

1 个答案:

答案 0 :(得分:1)

正如Anony Mousse在上面的评论中指出的那样,TF / IDF只是一种标准化措施,可以确保所有文件中过于流行的词语不会变得太重要。

对于数据准备,我建议您阅读this及其第二部分(通过上述链接链接),如果您还没有这样做的话。从每条推文中获取数字向量非常重要。通常,在机器学习中,获取特征向量很重要,因为这样,您可以将数学算法应用于数据。

现在您的集合中的每条推文都有一个特征向量,事情变得有点简单。我想到有两种聚类算法,你可以在几个小时内完成,可能需要进行大量的测试才能度过一个周末。

  • K-Means聚类
  • 单链接的分层聚类

仅使用100,000条推文,您实际上应该能够在一台计算机上实现这些算法(即,这不是大数据 - 不需要集群计算),使用您喜欢的语言(C ++,Java,Python,MATLAB,等等。)。就个人而言,我认为与Hierarchical Clustering(我之前也做过)相比,实现K-Means Clustering(我之前已经做过)更容易。

编辑:仅当您标记了培训数据时,请按照以下说明进行操作,即您有推文说,带有标记的情绪(快乐用户,好的,不好的产品,愤怒的用户,滥用用户)和你要回答的问题是:给出一条新的推文,它的情绪是什么?

这是一个非常好的资源,你应该看看,以更好地了解K-Nearest Neighbors:

一般来说,对于其他两种算法,有充足的资源,维基百科的文章是最好的开始。就个人而言,我觉得K-Nearest Neighbors(简写k-NN)是三个中最容易实现的,并且会给你快速的结果。