标签: hadoop bigdata hadoop2 hadoop-streaming
作为当前项目的一部分,我需要处理Hadoop集群上Amazon S3(Common Crawl数据集)上托管的19TiB数据。
我想采取的方法是分批下载数据集:
N
这种方法将允许我以有限的存储容量处理数据。
问题:我应该采用哪种方法来实现?我考虑过使用2个Hadoop作业-一个作业下载数据,另一个作业在完成第一个作业后进行处理。这是最好的解决方案吗?
是否有一些考虑此用例的工具?