应用错误收集

使用有限的存储空间处理常见的抓取数据

时间：2018-11-07 19:36:54

标签： hadoop bigdata hadoop2 hadoop-streaming

作为当前项目的一部分，我需要处理Hadoop集群上Amazon S3（Common Crawl数据集）上托管的19TiB数据。

我想采取的方法是分批下载数据集：

下载N GB的文件
使用Hadoop处理文件，保存结果并删除包含数据的文件（同时下载下一个N GB的文件）
重复

这种方法将允许我以有限的存储容量处理数据。

问题：我应该采用哪种方法来实现？我考虑过使用2个Hadoop作业-一个作业下载数据，另一个作业在完成第一个作业后进行处理。这是最好的解决方案吗？

是否有一些考虑此用例的工具？

0 个答案:

没有答案