适应地图缩减框架的一些具有挑战性的问题是什么?

时间:2011-04-15 06:38:01

标签: java python hadoop mapreduce

我在地图缩减上开发了大约20个作业,包括pagerank算法。我从来没有发现任何具有挑战性的问题来适应在线mapreduce框架。我想提高自己的技能。有这样的指南吗?

1 个答案:

答案 0 :(得分:0)

您正在寻找的是数据密集型编程任务。这是在StackOverflow上发布的similar question。我想建议this project,因为维基百科的语料库很容易获得,但正如您所看到的那样,它已经在进行中。

运行squid反向代理并在一段时间内收集那些日志。现在使用这些日志并尝试对它们进行有意义的解释,并将它们存储在适当的数据库中以进行查询。这可能是一个很好的项目。