如何使用map reduce计算给定推文集中的所有主题标签?

时间:2016-02-04 09:37:52

标签: hadoop twitter mapreduce

我想要一个计数器来检查最流行的主题标签。
现在的问题是每个推文都可以有多个主题标签,在这种情况下如何设置主题标签作为密钥?因为在每次迭代中我都有来自每条推文的一组主题标签。
如何解决这个问题以适应map-reduce范例?

1 个答案:

答案 0 :(得分:1)

您可以在一次地图通话中进行多次写入/收听调用。

在推文中搜索所有HasTag并对其进行迭代,每次都调用write / collect