我是集群的新手,之前只是实现了几个算法。 我需要根据它们的相似性对推文进行聚类。 一种方法是仅使用哈希标记,但我不认为它会提供信息。所以应该分析完整的推文。
此外,我在网上搜索聚类Feed的算法。
我遇到的是TF-IDF。我想知道是否有更好的算法可以在几个小时内实现,并且比TF-IDF更好。我也会在一些有关Twitter源聚类的信息来源中进行讨论。
PS:推文数量:10 ^ 5
答案 0 :(得分:1)
对于数据准备,我建议您阅读this及其第二部分(通过上述链接链接),如果您还没有这样做的话。从每条推文中获取数字向量非常重要。通常,在机器学习中,获取特征向量很重要,因为这样,您可以将数学算法应用于数据。
现在您的集合中的每条推文都有一个特征向量,事情变得有点简单。我想到有两种聚类算法,你可以在几个小时内完成,可能需要进行大量的测试才能度过一个周末。
仅使用100,000条推文,您实际上应该能够在一台计算机上实现这些算法(即,这不是大数据 - 不需要集群计算),使用您喜欢的语言(C ++,Java,Python,MATLAB,等等。)。就个人而言,我认为与Hierarchical Clustering(我之前也做过)相比,实现K-Means Clustering(我之前已经做过)更容易。
编辑:仅当您标记了培训数据时,请按照以下说明进行操作,即您有推文说,带有标记的情绪(快乐用户,好的,不好的产品,愤怒的用户,滥用用户)和你要回答的问题是:给出一条新的推文,它的情绪是什么?
这是一个非常好的资源,你应该看看,以更好地了解K-Nearest Neighbors:
一般来说,对于其他两种算法,有充足的资源,维基百科的文章是最好的开始。就个人而言,我觉得K-Nearest Neighbors(简写k-NN)是三个中最容易实现的,并且会给你快速的结果。