标签: hadoop twitter mapreduce
我想要一个计数器来检查最流行的主题标签。 现在的问题是每个推文都可以有多个主题标签,在这种情况下如何设置主题标签作为密钥?因为在每次迭代中我都有来自每条推文的一组主题标签。 如何解决这个问题以适应map-reduce范例?
答案 0 :(得分:1)
您可以在一次地图通话中进行多次写入/收听调用。
在推文中搜索所有HasTag并对其进行迭代,每次都调用write / collect