我在地图缩减上开发了大约20个作业,包括pagerank算法。我从来没有发现任何具有挑战性的问题来适应在线mapreduce框架。我想提高自己的技能。有这样的指南吗?
答案 0 :(得分:0)
您正在寻找的是数据密集型编程任务。这是在StackOverflow上发布的similar question。我想建议this project,因为维基百科的语料库很容易获得,但正如您所看到的那样,它已经在进行中。
运行squid反向代理并在一段时间内收集那些日志。现在使用这些日志并尝试对它们进行有意义的解释,并将它们存储在适当的数据库中以进行查询。这可能是一个很好的项目。