我有一个项目,要求从外部源以分布式方式下载文件。我们已经在Hadoop上投入了大量资金并且希望利用MapReduce - 但更多的是作为分布式任务而不是ETL。
1)之前有没有人这样做过?
2)是否只有没有Reducer的Mapper?
3)将FTP / HTTP连接的抽象实现传递给Mapper的最佳方法是什么? - 为了清楚起见,我得到的是我想要一个好的方法来进行单元测试而不进行集成测试,因此需要一种方法来模拟FTP / HTTP。
4)MapReduce是这种类型的最佳方法吗? - 我们滥用MapReduce吗?
谢谢。
答案 0 :(得分:2)
这听起来'类似于Nutch所做的(虽然我对Nutch的熟悉程度并不太熟悉)。
观察的一些观点:
答案 1 :(得分:2)
我认为你应该看看Storm。它是一个可扩展的框架,对于从许多不同来源收集数据非常有用。这正是你想要做的。仍然可以使用map reduce完成处理,但对于实际的集合,您应该使用像Storm这样的框架。
答案 2 :(得分:1)
我认为您的互联网连接很容易成为这种情况的瓶颈,但我确信可以做到。