我正在使用spark stream来传输实时推文(过滤器,只有英文推文)并将它们存储在Cassandra中,然后我计划运行K-means / LSI算法(使用spark MLib)来识别趋势主题。
我需要提示如何用矩阵(向量)表示来表示这些推文。此外,我想知道用存储的数据训练模型是否正确,然后使用流数据运行模型?
答案 0 :(得分:1)
这完全取决于您使用的功能和您使用的语言。
您可以将其表示为一个向量,其中所有单词都是列,每个值在1到0之间,使用某种类型的度量标准,如TFIDF。然后在常规RDD(或稀疏)
上执行k-meanshttps://spark.apache.org/docs/1.1.0/mllib-clustering.html
https://spark-summit.org/2014/wp-content/uploads/2014/07/sparse_data_support_in_mllib1.pdf