使用有限的存储空间处理常见的抓取数据

时间:2018-11-07 19:36:54

标签: hadoop bigdata hadoop2 hadoop-streaming

作为当前项目的一部分,我需要处理Hadoop集群上Amazon S3(Common Crawl数据集)上托管的19TiB数据。

我想采取的方法是分批下载数据集:

  1. 下载N GB的文件
  2. 使用Hadoop处理文件,保存结果并删除包含数据的文件(同时下载下一个N GB的文件)
  3. 重复

这种方法将允许我以有限的存储容量处理数据。

问题:我应该采用哪种方法来实现?我考虑过使用2个Hadoop作业-一个作业下载数据,另一个作业在完成第一个作业后进行处理。这是最好的解决方案吗?

是否有一些考虑此用例的工具?

0 个答案:

没有答案