确定Twitter中的热门话题

时间:2015-06-24 14:28:21

标签: twitter machine-learning apache-spark k-means spark-streaming

我正在使用spark stream来传输实时推文(过滤器,只有英文推文)并将它们存储在Cassandra中,然后我计划运行K-means / LSI算法(使用spark MLib)来识别趋势主题。

我需要提示如何用矩阵(向量)表示来表示这些推文。此外,我想知道用存储的数据训练模型是否正确,然后使用流数据运行模型?

1 个答案:

答案 0 :(得分:1)

这完全取决于您使用的功能和您使用的语言。

您可以将其表示为一个向量,其中所有单词都是列,每个值在1到0之间,使用某种类型的度量标准,如TFIDF。然后在常规RDD(或稀疏)

上执行k-means

https://spark.apache.org/docs/1.1.0/mllib-clustering.html

https://spark-summit.org/2014/wp-content/uploads/2014/07/sparse_data_support_in_mllib1.pdf