实时流 - 使用Apache Storm进行多级字数统计

时间:2014-12-05 10:08:10

标签: twitter apache-storm

我希望使用apache storm找到基于twitter feed的顶级地理流行词。我看到很多很好的例子。

http://www.zdatainc.com/2014/07/real-time-streaming-apache-storm-apache-kafka/ https://github.com/davidkiss/storm-twitter-word-count

但我想基于地理位置增强上述解决方案。许多Twitter状态(推文)都带有地理位置。我想将单词计数示例拆分为m x n矩阵,其中m和n表示相对地理坐标,例如(3x4 = 30.x40。)纬度和经度。

我想基于Apache风暴拓扑将输入流拆分为多个计数器。唯一运行单坐标单元格(例如x,y)的地理单词计数器螺栓

我得到的一个解决方案是,为每个组合注册mxn个数量的螺栓。但这几乎是蛮力。 第二种解决方案:采用fieldsGrouping(x,y字段)无法正常工作。我可以看到相同的螺栓运行相同的x和y组合。我正在本地集群中运行。

请提出一些想法。

1 个答案:

答案 0 :(得分:0)

您的方法应该有效,但如果不是,请尝试将纬度和经度转换为字符串,然后将它们连接到一个字段中,并使用 字段作为fieldsGrouping。