使用spark streaming

时间:2015-06-04 04:03:19

标签: apache-spark spark-streaming

我是新来的火花。我需要构建一个共现图(在推文中将成为节点,如果这些单词来自同一条推文,我们在它们之间添加了一条边),来自Twitter推文等流媒体数据。我们可以使用火花流来构建实时共现的twitter图。火花流是否适用于此用例?我不确定是否可以使用火花流完成。如果不是什么选择?

1 个答案:

答案 0 :(得分:1)

共现频率可以看作图形或邻接矩阵,但这是单词列表产品空间中的大型稀疏直方图(频率计数)。您很可能希望检测移动窗口相关性,因此应设计草图数据结构以跟踪流中发生率的异常增加或减少。例如计算应用于每个单词对的布隆过滤器或计数最小草图 - 请参阅http://twitter.github.io/algebird/#com.twitter.algebird.CMSCounting