应用错误收集

确定Twitter中的热门话题

时间：2015-06-24 14:28:21

标签： twitter machine-learning apache-spark k-means spark-streaming

我正在使用spark stream来传输实时推文（过滤器，只有英文推文）并将它们存储在Cassandra中，然后我计划运行K-means / LSI算法（使用spark MLib）来识别趋势主题。

我需要提示如何用矩阵（向量）表示来表示这些推文。此外，我想知道用存储的数据训练模型是否正确，然后使用流数据运行模型？

1 个答案:

答案 0 :(得分：1)

这完全取决于您使用的功能和您使用的语言。

您可以将其表示为一个向量，其中所有单词都是列，每个值在1到0之间，使用某种类型的度量标准，如TFIDF。然后在常规RDD（或稀疏）

上执行k-means

https://spark.apache.org/docs/1.1.0/mllib-clustering.html

https://spark-summit.org/2014/wp-content/uploads/2014/07/sparse_data_support_in_mllib1.pdf